
Китайская технологическая компания Meituan выпустила LongCat-Image, новую модель обработки изображений с открытым исходным кодом, которая бросает вызов распространенному в отрасли принципу «чем больше, тем лучше». Сообщается, что модель, имеющая всего 6 миллиардов параметров, значительно превосходит более крупных конкурентов как по фотореализму, так и по рендерингу текста, благодаря строгой обработке данных и продуманному подходу к обработке текста.
В то время как конкуренты, такие как Tencent и Alibaba, продолжают создавать всё более крупные модели – Hunyuan3.0 вмещает до 80 миллиардов параметров – Meituan пошла в противоположном направлении. Команда утверждает, что масштабирование методом грубой силы тратит ресурсы оборудования, не улучшая при этом качество изображений. Вместо этого LongCat-Image использует архитектуру, аналогичную популярной Flux.1-dev, построенную на гибридном многомодальном диффузионном трансформаторе (MM-DiT).

Система обрабатывает данные изображения и текста через два отдельных пути внимания на начальных уровнях, прежде чем объединить их позже. Это обеспечивает текстовой подсказке более жесткий контроль над генерацией изображения без увеличения вычислительной нагрузки.
Очистка обучающих данных устраняет пластиковый вид
По мнению исследователей, одной из самых больших проблем современных систем искусственного интеллекта для обработки изображений является загрязнение обучающих данных. Когда модели обучаются на изображениях, созданных другими системами ИИ, они перенимают пластиковую или жирную текстуру. Модель учится использовать упрощенные подходы вместо понимания реальной сложности.
Решение команды было простым, но радикальным: они удалили весь контент, сгенерированный ИИ, из своего набора данных на этапах предварительного и промежуточного обучения. Компания Alibaba применила аналогичный подход к Qwen-Image. Только на заключительном этапе тонкой настройки они разрешили вернуть в набор данных тщательно отобранные высококачественные синтетические данные.
Разработчики также придумали новый приём обучения с подкреплением: модель обнаружения, которая наказывает генератор всякий раз, когда он обнаруживает артефакты ИИ. Это заставляет модель создавать текстуры, достаточно реалистичные, чтобы обмануть детектор.
Результаты говорят сами за себя. В тестах производительности модель 6B регулярно превосходит гораздо более крупные модели, такие как Qwen-Image-20B и HunyuanImage-3.0. А благодаря своей высокой эффективности она использует гораздо меньше видеопамяти – хорошая новость для тех, кто хочет запускать ее локально.

Побуквенная обработка текста позволяет идеально отображать текст на изображениях
Одна из лучших особенностей модели – это способ обработки текста внутри изображений. Большинство моделей допускают ошибки в правописании, потому что рассматривают слова как абстрактные токены, а не как отдельные буквы. LongCat-Image использует гибридный подход. Она использует Qwen2.5-VL-7B для понимания общего текста запроса, но когда видит текст в кавычках , переключается на токенизатор на уровне символов. Вместо запоминания визуальных шаблонов для каждого возможного слова, модель формирует текст по буквам.
Раздельная модель редактирования сохраняет качество изображения неизменным
Вместо того чтобы объединять все данные в одной модели, команда разработала автономный инструмент под названием LongCat-Image-Edit. Они обнаружили, что синтетические данные, необходимые для обучения редактированию, фактически ухудшают фотореалистичность основной модели.

Модель редактирования начинает работу с контрольной точки промежуточного обучения – момента, когда система еще достаточно гибкая, чтобы осваивать новые навыки. Обучая ее задачам редактирования наряду с генерацией, модель учится следовать инструкциям, не забывая, как выглядят реальные изображения.
Компания Meituan опубликовала веса для обеих моделей на GitHub и Hugging Face, а также контрольные точки в процессе обучения и полный код конвейера обучения.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


