Alibaba представила подробный технический отчет Qwen3-VL. ai.. ai. qwen.. ai. qwen. Qwen3-vl.. ai. qwen. Qwen3-vl. Блог компании BotHub.. ai. qwen. Qwen3-vl. Блог компании BotHub. Будущее здесь.. ai. qwen. Qwen3-vl. Блог компании BotHub. Будущее здесь. ИИ.. ai. qwen. Qwen3-vl. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. qwen. Qwen3-vl. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. модель.. ai. qwen. Qwen3-vl. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. модель. научно-популярное.. ai. qwen. Qwen3-vl. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. модель. научно-популярное. нейросеть.

Alibaba представила подробный технический отчет Qwen3-VL - 1

Спустя несколько месяцев после анонса Qwen3-VL компания Alibaba опубликовала детальный технический отчет о своей открытой мультимодальной модели. Данные свидетельствуют, что система исключительно эффективно решает математические задачи на основе изображений и способна анализировать многочасовые видео.

Ключевой особенностью модели является работа с большими объемами данных: система обрабатывает двухчасовые видеоролики или сотни страниц документов благодаря контекстному окну объемом 256 000 токенов.

В тестах «иголка в стоге сена» флагманская модель с 235 миллиардами параметров продемонстрировала 100% точность обнаружения отдельных кадров в 30-минутных видео. Даже в двухчасовых роликах объемом около миллиона токенов точность сохранялась на уровне 99,5%. Тест предполагает вставку семантически значимого кадра-иголки в произвольные места длинных видео с последующим поиском и анализом.

Тест «иголка в стоге сена» измеряет способность модели находить определенные кадры в длинных видеороликах

В опубликованных бенчмарках модель Qwen3-VL-235B-A14B последовательно превосходит Gemini 2.5 Pro, OpenAI GPT-4o и Claude 3.5 Sonnet, даже когда конкуренты используют расширенные функции логического вывода. Модель демонстрирует а��солютное лидерство в задачах визуального вычисления: 85,8% в MathVista против 81,3% у GPT-4o и 74,6% в MathVision против 73,3% у Gemini 2.5 Pro.

Старшая модель Gemini 2.5 Pro сохраняет небольшое преимущество в общем понимании изображений

Qwen3-VL достигает точности более 70 процентов при выполнении задач OCR на 32 из 39 поддерживаемых языков

В опубликованных бенчмарках модель Qwen3-VL-235B-A14B последовательно превосходит Gemini 2.5 Pro, OpenAI GPT-4o и Claude 3.5 Sonnet, даже когда конкуренты используют расширенные функции логического вывода. Модель демонстрирует абсолютное лидерство в задачах визуального вычисления: 85,8% в MathVista против 81,3% у GPT-4o и 74,6% в MathVision против 73,3% у Gemini 2.5 Pro.

Система также показывает выдающиеся результаты в специализированных тестах:

96,5% в тесте на понимание документов DocVQA
875 баллов в OCRBench с поддержкой 39 языков (почти вчетверо больше предшественника)
61,8% точности в ScreenSpot Pro (навигация в графических интерфейсах)
63,7% в AndroidWorld (автономное управление приложениями Android)

Модель эффективно обрабатывает сложные многостраничные документы: 56,2% в MMLongBench-Doc и 90,5% в CharXiv при описании научных диаграмм.

Однако модель не лишена слабых мест. В комплексном тесте MMMU-Pro Qwen3-VL набрал 69,3%, уступив GPT-4o (78,4%). Коммерческие конкуренты также сохраняют преимущество в тестах качества видео. Анализ показывает, что Qwen3-VL специализируется на визуальной математике и работе с документами, но все еще отстает в области общих логических рассуждений.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Запись добавлена: 30.11.2025 в 09:38
Оставлено в

Alibaba представила подробный технический отчет Qwen3-VL

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов