Китайский ИИ-стартап FireRed представил новую универсальную модель редактирования изображений FireRed-Image-Edit 1.0, способную точно выполнять разнообразные инструкции по модификации визуального контента.
Разработанная на базе мультимодальной архитектуры Qwen, модель FireRed-Image-Edit 1.0 с 20 миллиардов параметров сочетает в себе точное следование текстовым описаниям, высокое качество генерируемых результатов и исключительную согласованность с исходным изображением.
Открытый исходный код модели FireRed-Image-Edit уже доступен на GitHub, Hugging Face и ModelScope.
FireRed-Image-Edit демонстрирует впечатляющий набор функций, охватывающий практически все сценарии редактирования, с которыми сталкиваются пользователи. Модель способна добавлять новые объекты в сцену, корректировать существующие элементы – цвет, форму, текстуру, извлекать отдельные объекты из композиции, заменять одни предметы другими, удалять нежелательные детали с интеллектуальным заполнением фона, изменять фоновое окружение, трансформировать стиль изображения, выполнять сложные гибридные операции, включающие несколько типов изменений одновременно, а также генерировать динамические действия, такие как изменение позы или движения объекта.

Одной из ключевых особенностей FireRed-Image-Edit является превосходное сохранение текстовой информации – модель точно воспроизводит стиль и форму надписей, что особенно важно при работе с вывесками, логотипами и другими элементами, содержащими текст.
Встроенная функция реставрации позволяет качественно восстанавливать и улучшать старые фотографии, устраняя дефекты и повышая чёткость. Модель также поддерживает редактирование нескольких изображений в рамках одной задачи, например, для виртуальной примерки одежды, где необходимо совместить предмет гардероба с изображением человека.
В тестировании FireRed-Image-Edit-1.0 в собственном бенчмарке REDEdit-Bench продемонстрировала выдающиеся результаты, набрав 4,56 балла по общей оценке качества и превзойдя все существующие открытые модели, включая Qwen-Image-Edit-2511 (4,51) и LongCat-Image-Edit (4,45).
Модель также опередила ведущие проприетарные системы, такие как Nano-Banana-Pro и Seedream4.5. Особенно высокие показатели достигнуты в задачах извлечения объектов (4,34 баллов), гибридного редактирования (4,07) и стилизации (4,97), что подтверждает универсальность и точность следования пользовательским инструкциям.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: mefdayy


