OmniGen 2 сочетает в себе генерацию изображений и текста, как GPT-4o, но имеет открытый исходный код

Исследователи из Пекинской академии искусственного интеллекта ^[1] выпустили OmniGen 2 — систему с открытым исходным кодом для преобразования текста в изображение, редактирования изображений и создания контекстных изображений.

В отличие от оригинальной модели OmniGen, выпущенной в ноябре 2024 года, OmniGen 2 использует два отдельных пути декодирования: один для текста, другой для изображений, каждый со своими параметрами и отдельным токенизатором изображений. По словам команды разработчиков, такая настройка позволяет модели опираться на существующие мультимодальные языковые модели, не жертвуя при этом их основными навыками генерации текста.

OmniGen 2 поддерживает различные запросы и художественные стили, хотя его фотореалистичные изображения всё же выглядят немного размытыми

В основе лежит мультимодальная большая языковая модель (MLLM) на базе трансформера Qwen2.5-VL-3B ^[2]. Для создания изображений OmniGen 2 использует собственный диффузионный трансформер с примерно четырьмя миллиардами параметров. Модель переключается с написания текста на создание изображений, когда встречает специальный токен «<|img|>».

OmniGen 2 использует отдельные пути декодирования: авторегрессионный преобразователь для текста и диффузионный преобразователь для изображений. Это помогает сохранять языковые навыки при создании высококачественных визуальных эффектов

Для обучения ^[3] использовалось около 140 миллионов изображений из наборов данных с открытым исходным кодом, а также из собственных коллекций. Исследователи также разработали новые методы, использующие видео для извлечения похожих кадров — например, лица с улыбкой и без неё — и создания соответствующих инструкций по редактированию с помощью языковой модели.

OmniGen 2 позволяет пользователям вносить локальные изменения без перегенерации всего изображения

Для создания контекстных изображений OmniGen 2 отслеживает людей или объекты на нескольких кадрах видео, помогая модели понять, как один и тот же объект выглядит в разных ситуациях.

OmniGen 2 способен объединять несколько исходных изображений в итоговое

Новая система позиционирования для мультимодальных подсказок

Команда представила новое встраивание позиции «Omni-RoPE», которое разделяет информацию о позиции тремя способами: последовательность и идентификатор модальности для различения изображений, а также двумерные координаты для каждого элемента изображения. Это помогает модели отслеживать несколько входных данных и объединять их в пространстве.

Omni-RoPE присваивает каждому элементу — тексту или изображению — уникальный идентификатор, что позволяет модели точно комбинировать несколько входных данных

Уникальной особенностью OmniGen 2 является то, что она использует функции VAE (вариационного автокодировщика) исключительно в качестве входных данных для диффузионного декодера, а не интегрирует их в основную языковую модель. Такой подход упрощает архитектуру и помогает сохранить базовое понимание языка моделью.

Механизм отражения для итеративного улучшения

Ключевой особенностью OmniGen 2 является механизм отражения, который позволяет модели оценивать собственные изображения и улучшать их в несколько этапов. Система выявляет недостатки в сгенерированном изображении и предлагает конкретные исправления.

Механизм отражения позволяет OmniGen 2 автоматически улучшать изображения

Поскольку не существовало надёжных критериев для создания контекстных изображений, исследователи представили тест OmniContext. Он включает в себя три категории — «Персонаж», «Объект» и «Сцена» — с восемью подзадачами и 50 примерами в каждой.

Оценка производится с помощью GPT-4.1, который оценивает точность подсказок и согласованность по теме от 0 до 10. OmniGen 2 набрал в общей сложности 7,18 балла, опередив все другие модели с открытым исходным кодом. GPT-4o, в котором недавно появилась функция создания собственных изображений ^[4], набрал 8,8 балла.

В области преобразования текста в изображение OmniGen 2 показал конкурентоспособные результаты в ключевых тестах, таких как GenEval и DPG-Bench. В области редактирования изображений он установил новый стандарт среди моделей с открытым исходным кодом.

По-прежнему есть некоторые пробелы: подсказки на английском работают лучше, чем на китайском, изменения формы тела даются с трудом, а качество вывода зависит от исходного изображения. Для неоднозначных подсказок с несколькими изображениями системе нужны чёткие инструкции по размещению объектов.

Команда планирует опубликовать модели, обучающие данные и создать конвейеры на Hugging Face ^[5].

По этой ссылке ^[6] вы можете получить 100 000 бесплатных токенов для выполнения первых задач на BotHub и приступить к работе с нейросетями прямо сейчас!

Источник ^[7]

Автор: mefdayy

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16765

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] трансформера Qwen2.5-VL-3B: https://the-decoder.com/alibabas-qwen2-5-vl-32b-matches-larger-models-with-just-32b-parameters/

[3] обучения: http://www.braintools.ru/article/5125

[4] GPT-4o, в котором недавно появилась функция создания собственных изображений: https://the-decoder.com/chatgpts-image-generation-explodes-with-700m-creations-in-first-week/

[5] Hugging Face: https://huggingface.co/OmniGen2/OmniGen2

[6] По этой ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[7] Источник: https://the-decoder.com/omnigen-2-blends-image-and-text-generation-like-gpt-4o-but-is-open-source/

[8] Источник: https://habr.com/ru/companies/bothub/news/923054/?utm_source=habrahabr&utm_medium=rss&utm_campaign=923054

Нажмите здесь для печати.