- BrainTools - https://www.braintools.ru -

Спустя несколько месяцев после анонса Qwen3-VL компания Alibaba опубликовала детальный технический отчет о своей открытой мультимодальной модели. Данные свидетельствуют, что система исключительно эффективно решает математические задачи на основе изображений и способна анализировать многочасовые видео.
Ключевой особенностью модели является работа с большими объемами данных: система обрабатывает двухчасовые видеоролики или сотни страниц документов благодаря контекстному окну объемом 256 000 токенов.
В тестах «иголка в стоге сена» флагманская модель с 235 миллиардами параметров продемонстрировала 100% точность обнаружения отдельных кадров в 30-минутных видео. Даже в двухчасовых роликах объемом около миллиона токенов точность сохранялась на уровне 99,5%. Тест предполагает вставку семантически значимого кадра-иголки в произвольные места длинных видео с последующим поиском и анализом.
В опубликованных бенчмарках модель Qwen3-VL-235B-A14B последовательно превосходит Gemini 2.5 Pro, OpenAI GPT-4o и Claude 3.5 Sonnet, даже когда конкуренты используют расширенные функции логического вывода. Модель демонстрирует а��солютное лидерство [1] в задачах визуального вычисления: 85,8% в MathVista против 81,3% у GPT-4o и 74,6% в MathVision против 73,3% у Gemini 2.5 Pro.
В опубликованных бенчмарках модель Qwen3-VL-235B-A14B последовательно превосходит Gemini 2.5 Pro, OpenAI GPT-4o и Claude 3.5 Sonnet, даже когда конкуренты используют расширенные функции логического вывода. Модель демонстрирует абсолютное лидерство в задачах визуального вычисления: 85,8% в MathVista против 81,3% у GPT-4o и 74,6% в MathVision против 73,3% у Gemini 2.5 Pro.
Система также показывает выдающиеся результаты в специализированных тестах:
96,5% в тесте на понимание документов DocVQA
875 баллов в OCRBench с поддержкой 39 языков (почти вчетверо больше предшественника)
61,8% точности в ScreenSpot Pro (навигация в графических интерфейсах)
63,7% в AndroidWorld (автономное управление приложениями Android)
Модель эффективно обрабатывает сложные многостраничные документы: 56,2% в MMLongBench-Doc и 90,5% в CharXiv при описании научных диаграмм.
Однако модель не лишена слабых мест. В комплексном тесте MMMU-Pro Qwen3-VL набрал 69,3%, уступив GPT-4o (78,4%). Коммерческие конкуренты также сохраняют преимущество в тестах качества видео. Анализ показывает, что Qwen3-VL специализируется на визуальной математике [2] и работе с документами, но все еще отстает в области общих логических рассуждений.
Делегируйте часть рутинных задач вместе с BotHub [3]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [5]
Автор: MrRjxrby
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22575
URLs in this post:
[1] лидерство: http://www.braintools.ru/article/1165
[2] математике: http://www.braintools.ru/article/7620
[3] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=ALIBABA_UNVEIS_DETAILED_TECHNICAL_REPORT_ON_Qwen3-VL
[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[5] Источник: https://the-decoder.com/qwen3-vl-can-scan-two-hour-videos-and-pinpoint-nearly-every-detail/
[6] Источник: https://habr.com/ru/companies/bothub/news/971672/?utm_source=habrahabr&utm_medium=rss&utm_campaign=971672
Нажмите здесь для печати.