Вышла новая масштабная мультимодальная world-модель

Emu3.5 ^[1] представлена как новая масштабная мультимодальная world-модель, которая объединяет текст и изображение в единое пространство восприятия ^[2]. Она способна одновременно обрабатывать два потока данных (текстовый и визуальный) и предсказывать их совместное состояние на каждом шаге. Такой подход делает модель ближе к тому, как человек воспринимает и осмысляет мир, связывая язык, зрение ^[3] и действие в единую систему.

Модель обучена на более чем десяти триллионах чередующихся vision-language токенов и дополнительно улучшена с помощью обучения ^[4] с подкреплением ^[5]. Это позволило Emu3.5 развить сильные способности к рассуждению, а также научиться уверенно генерировать и редактировать контент в смешанных форматах.

Отдельное внимание ^[6] заслуживает новый метод DiDA (Discrete Diffusion Adaptation). Он переводит процесс последовательного декодирования в параллельное двустороннее предсказание в дискретном пространстве токенов. По сути, модель перестаёт работать по принципу «токен за токеном», что даёт до двадцатикратного ускорения инференса без потери качества.

Вышла новая масштабная мультимодальная world-модель - 2

По внутренним тестам, Emu3.5 уже превосходит предыдущие версии и конкурирующие решения, включая Nano Banana, в задачах мультимодальной генерации, редактирования изображений и интеграции текста с визуальными элементами.

Попробовать Emu3.5 можно на официальном сайте проекта или в открытом репозитории на GitHub ^[7].

Делегируйте часть рутинных задач вместе с BotHub! ^[8] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[9] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/21330

URLs in this post:

[1] Emu3.5: https://emu.world/pages/web/landingPage

[2] восприятия: http://www.braintools.ru/article/7534

[3] зрение: http://www.braintools.ru/article/6238

[4] обучения: http://www.braintools.ru/article/5125

[5] подкреплением: http://www.braintools.ru/article/5528

[6] внимание: http://www.braintools.ru/article/7595

[7] GitHub: https://github.com/baaivision/Emu3.5

[8] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=A%20NEW%20SCALE%20MULTIMODAL%20WORLD%20MODEL%20HAS%20BEEN%20RELEASED

[9] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[10] Источник: https://habr.com/ru/companies/bothub/news/961792/?utm_source=habrahabr&utm_medium=rss&utm_campaign=961792

Нажмите здесь для печати.