Alibaba выпустила мощную мультимодальную модель. ai.. ai. alibaba.. ai. alibaba. qwen3.. ai. alibaba. qwen3. Блог компании BotHub.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь. ИИ.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. alibaba. qwen3. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Alibaba выпустила мощную мультимодальную модель - 1

Alibaba выпустила мощную мультимодальную модель Qwen3-VL, доступную в двух версиях — 4B и 8B параметров. Она работает с текстом и изображениями, поддерживает контекст длиной 256 тысяч токенов, который при необходимости может быть расширен до 1 миллиона, и демонстрирует впечатляющую способность распознавать как объекты, так и сцены в реальном мире.

Одной из главных особенностей Qwen3-VL стала поддержка открытой лексики. Модель понимает всё: от бытовых товаров и логотипов до знаменитостей и архитектурных объектов. Благодаря этому она способна не просто анализировать изображения, а интерпретировать их контекст.

В Qwen3-VL реализованы два ключевых режима работы: Instruct и Thinking. Первый предназначен для интерактивных задач вроде генерации текста, кода и анализа данных. Второй для более сложных вычислительных процессов, включая решение математических задач и логические рассуждения, где требуется поэтапное мышление.

Отдельного внимания заслуживает система OCR. В новой версии она обучена на данных с низким качеством сканов, размытых фото и рукописных документов. Модель уверенно извлекает текст даже из наклонённых или частично закрытых изображений, поддерживая при этом 32 языка, включая казахский, китайский, арабский и японский.

По многим задачам Qwen3-VL демонстрирует результаты, сопоставимые с куда более крупной Qwen2.5-VL-72B, а иногда даже превосходит её, особенно в части пространственного понимания изображений и текстово-графического рассуждения.

Модель распространяется под лицензией Apache 2.0, что делает её одной из самых доступных и мощных мультимодальных систем с открытым исходным кодом на сегодняшний день. Код, весы и демо уже доступны на платформе Hugging Face, а Alibaba Cloud готовит интеграцию Qwen3-VL в свои сервисы AI Workspace и ModelScope.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100