- BrainTools - https://www.braintools.ru -

Alibaba выпустила мощную мультимодальную модель

Alibaba выпустила мощную мультимодальную модель - 1

Alibaba выпустила мощную мультимодальную модель Qwen3-VL, доступную в двух версиях — 4B и 8B параметров. Она работает с текстом и изображениями, поддерживает контекст длиной 256 тысяч токенов, который при необходимости может быть расширен до 1 миллиона, и демонстрирует впечатляющую способность распознавать как объекты, так и сцены в реальном мире.

Одной из главных особенностей Qwen3-VL стала поддержка открытой лексики. Модель понимает всё: от бытовых товаров и логотипов до знаменитостей и архитектурных объектов. Благодаря этому она способна не просто анализировать изображения, а интерпретировать их контекст.

В Qwen3-VL реализованы два ключевых режима работы: Instruct и Thinking. Первый предназначен для интерактивных задач вроде генерации текста, кода и анализа данных. Второй для более сложных вычислительных процессов, включая решение математических задач и логические рассуждения, где требуется поэтапное мышление [1].

Отдельного внимания [2] заслуживает система OCR. В новой версии она обучена на данных с низким качеством сканов, размытых фото и рукописных документов. Модель уверенно извлекает текст даже из наклонённых или частично закрытых изображений, поддерживая при этом 32 языка, включая казахский, китайский, арабский и японский.

По многим задачам Qwen3-VL демонстрирует результаты, сопоставимые с куда более крупной Qwen2.5-VL-72B, а иногда даже превосходит её, особенно в части пространственного понимания изображений и текстово-графического рассуждения.

Модель распространяется под лицензией Apache 2.0, что делает её одной из самых доступных и мощных мультимодальных систем с открытым исходным кодом на сегодняшний день. Код, весы и демо уже доступны на платформе Hugging Face [3], а Alibaba Cloud готовит интеграцию Qwen3-VL в свои сервисы AI Workspace и ModelScope.


Делегируйте часть рутинных задач вместе с BotHub! [4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20692

URLs in this post:

[1] мышление: http://www.braintools.ru/thinking

[2] внимания: http://www.braintools.ru/article/7595

[3] Hugging Face: https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

[4] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=ALIBABA%20RELEASED%20A%20POWERFUL%20MULTIMODAL%20MODEL

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Источник: https://habr.com/ru/companies/bothub/news/956642/?utm_source=habrahabr&utm_medium=rss&utm_campaign=956642

www.BrainTools.ru

Rambler's Top100