Alibaba представила Qwen VLo: мультимодальная модель для работы с изображениями

Китайский технологический гигант Alibaba представил Qwen VLo — мультимодальную модель искусственного интеллекта ^[1], предназначенную для анализа, создания и редактирования изображений.

По данным Alibaba, Qwen VLo использует прогрессивный подход к генерации, шаг за шагом создавая изображения слева направо и сверху вниз и постоянно совершенствуя результат. Этот метод позволяет лучше контролировать результаты, особенно при работе с длинными текстами. Компания не предоставляет информацию о технических деталях, но, вероятно, Qwen VLo использует метод авторегрессии, похожий на тот, что применяется в GPT-4o, а не метод на основе диффузии.

Редактирование изображений с помощью естественного языка

Qwen VLo может интерпретировать сложные инструкции по редактированию на естественном языке, позволяя пользователям менять фон, вставлять новые объекты, изменять визуальные стили или даже объединять несколько изображений в одно.

После нескольких этапов редактирования запрос «Сгенерируйте милого сиба-ину» приводит к …

... мультяшной собаке в кепке и наушниках внутри стеклянного шара — … мультяшной собаке в кепке и наушниках внутри стеклянного шара

Система поддерживает как художественные, так и технические модификации изображений. Например, она может генерировать карты сегментации, выполнять обнаружение границ или создавать карты глубины с цветными наложениями по запросу.

Qwen VLo может распознавать сегменты изображения и оценивать карты глубины

Qwen VLo обрабатывает изображения с разным разрешением и соотношением сторон, поддерживая экстремальные форматы, такие как 4:1 или 1:3, хотя эта функция пока неактивна. Модель также поддерживает несколько языков, включая китайский и английский.

Ранний предварительный просмотр с ограничениями

Qwen VLo в настоящее время доступен в режиме предварительного просмотра через Qwen Chat, ^[2] веб-интерфейс Alibaba. Компания отмечает, что модель по-прежнему допускает ошибки ^[3] при генерации, не соответствует исходным изображениям и требует подробных инструкций. Alibaba заявляет, что планирует и дальше повышать надёжность и стабильность модели.

До сих пор Alibaba была надёжным источником конкурентоспособных языковых моделей ИИ. Например, в апреле она выпустила Qwen3 и её весовые коэффициенты ^[4], что сделало компанию важным участником исследований в области открытого ИИ. Неясно, почему Qwen VLo не была выпущена с весовыми коэффициентами модели и не свидетельствует ли это о более масштабных изменениях в подходе Alibaba к открытой публикации.

Делегируйте часть рутинных задач вместе с BotHub ^[5]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[6] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь ^[7].

Автор: mefdayy

Источник ^[8]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/17068

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] Qwen Chat,: https://the-decoder.com/alibaba-launches-free-web-interface-qwen-chat-for-qwen-ai-models/

[3] ошибки: http://www.braintools.ru/article/4192

[4] Qwen3 и её весовые коэффициенты: https://the-decoder.com/qwen3-series-from-alibaba-debuts-with-benchmark-results-matching-top-competitors/

[5] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=ALIBABA_PRESENTED_QWEN_VLO_A_MULTIMODAL_MODEL_FOR_WORKING_WITH_IMAGES

[6] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[7] здесь: https://the-decoder.com/alibabas-new-gpt-4o-competitor-qwen-vlo-is-no-longer-open-source/

[8] Источник: https://habr.com/ru/companies/bothub/news/925982/?utm_source=habrahabr&utm_medium=rss&utm_campaign=925982

Нажмите здесь для печати.