OmniGen 2 сочетает в себе генерацию изображений и текста, как GPT-4o, но имеет открытый исходный код. OmniGen 2.. OmniGen 2. Блог компании BotHub.. OmniGen 2. Блог компании BotHub. генерация текста.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение. искусственный интеллект.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение. искусственный интеллект. модели ии.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение. искусственный интеллект. модели ии. Обработка изображений.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение. искусственный интеллект. модели ии. Обработка изображений. открытый исходный код.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение. искусственный интеллект. модели ии. Обработка изображений. открытый исходный код. редактирование изображений.. OmniGen 2. Блог компании BotHub. генерация текста. ИИ. ии и машинное обучение. искусственный интеллект. модели ии. Обработка изображений. открытый исходный код. редактирование изображений. текст в изображение.

Исследователи из Пекинской академии искусственного интеллекта выпустили OmniGen 2 — систему с открытым исходным кодом для преобразования текста в изображение, редактирования изображений и создания контекстных изображений.

OmniGen 2 сочетает в себе генерацию изображений и текста, как GPT-4o, но имеет открытый исходный код - 1

В отличие от оригинальной модели OmniGen, выпущенной в ноябре 2024 года, OmniGen 2 использует два отдельных пути декодирования: один для текста, другой для изображений, каждый со своими параметрами и отдельным токенизатором изображений. По словам команды разработчиков, такая настройка позволяет модели опираться на существующие мультимодальные языковые модели, не жертвуя при этом их основными навыками генерации текста.

OmniGen 2 поддерживает различные запросы и художественные стили, хотя его фотореалистичные изображения всё же выглядят немного размытыми

OmniGen 2 поддерживает различные запросы и художественные стили, хотя его фотореалистичные изображения всё же выглядят немного размытыми

В основе лежит мультимодальная большая языковая модель (MLLM) на базе трансформера Qwen2.5-VL-3B. Для создания изображений OmniGen 2 использует собственный диффузионный трансформер с примерно четырьмя миллиардами параметров. Модель переключается с написания текста на создание изображений, когда встречает специальный токен «<|img|>».

 OmniGen 2 использует отдельные пути декодирования: авторегрессионный преобразователь для текста и диффузионный преобразователь для изображений. Это помогает сохранять языковые навыки при создании высококачественных визуальных эффектов 

OmniGen 2 использует отдельные пути декодирования: авторегрессионный преобразователь для текста и диффузионный преобразователь для изображений. Это помогает сохранять языковые навыки при создании высококачественных визуальных эффектов 

Для обучения использовалось около 140 миллионов изображений из наборов данных с открытым исходным кодом, а также из собственных коллекций. Исследователи также разработали новые методы, использующие видео для извлечения похожих кадров — например, лица с улыбкой и без неё — и создания соответствующих инструкций по редактированию с помощью языковой модели.

OmniGen 2 позволяет пользователям вносить локальные изменения без перегенерации всего изображения 

OmniGen 2 позволяет пользователям вносить локальные изменения без перегенерации всего изображения 

Для создания контекстных изображений OmniGen 2 отслеживает людей или объекты на нескольких кадрах видео, помогая модели понять, как один и тот же объект выглядит в разных ситуациях.

OmniGen 2 способен объединять несколько исходных изображений в итоговое
OmniGen 2 способен объединять несколько исходных изображений в итоговое

Новая система позиционирования для мультимодальных подсказок

Команда представила новое встраивание позиции «Omni-RoPE», которое разделяет информацию о позиции тремя способами: последовательность и идентификатор модальности для различения изображений, а также двумерные координаты для каждого элемента изображения. Это помогает модели отслеживать несколько входных данных и объединять их в пространстве.

Omni-RoPE присваивает каждому элементу — тексту или изображению — уникальный идентификатор, что позволяет модели точно комбинировать несколько входных данных

Omni-RoPE присваивает каждому элементу — тексту или изображению — уникальный идентификатор, что позволяет модели точно комбинировать несколько входных данных

Уникальной особенностью OmniGen 2 является то, что она использует функции VAE (вариационного автокодировщика) исключительно в качестве входных данных для диффузионного декодера, а не интегрирует их в основную языковую модель. Такой подход упрощает архитектуру и помогает сохранить базовое понимание языка моделью.

Механизм отражения для итеративного улучшения

Ключевой особенностью OmniGen 2 является механизм отражения, который позволяет модели оценивать собственные изображения и улучшать их в несколько этапов. Система выявляет недостатки в сгенерированном изображении и предлагает конкретные исправления.

Механизм отражения позволяет OmniGen 2 автоматически улучшать изображения

Механизм отражения позволяет OmniGen 2 автоматически улучшать изображения

Поскольку не существовало надёжных критериев для создания контекстных изображений, исследователи представили тест OmniContext. Он включает в себя три категории — «Персонаж», «Объект» и «Сцена» — с восемью подзадачами и 50 примерами в каждой.

Оценка производится с помощью GPT-4.1, который оценивает точность подсказок и согласованность по теме от 0 до 10. OmniGen 2 набрал в общей сложности 7,18 балла, опередив все другие модели с открытым исходным кодом. GPT-4o, в котором недавно появилась функция создания собственных изображений, набрал 8,8 балла.

В области преобразования текста в изображение OmniGen 2 показал конкурентоспособные результаты в ключевых тестах, таких как GenEval и DPG-Bench. В области редактирования изображений он установил новый стандарт среди моделей с открытым исходным кодом.

По-прежнему есть некоторые пробелы: подсказки на английском работают лучше, чем на китайском, изменения формы тела даются с трудом, а качество вывода зависит от исходного изображения. Для неоднозначных подсказок с несколькими изображениями системе нужны чёткие инструкции по размещению объектов.

Команда планирует опубликовать модели, обучающие данные и создать конвейеры на Hugging Face.


По этой ссылке вы можете получить 100 000 бесплатных токенов для выполнения первых задач на BotHub и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: mefdayy

Источник

Rambler's Top100