Alibaba заявляет, что её новая модель Qwen2.5-VL является полезным «визуальным агентом»

В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта ^[1] в коммерческой сфере.

Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года ^[2], новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео. Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.

По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника. В нескольких демонстрационных версиях Alibaba показывает, как Qwen2.5 анализирует содержимое экрана и предоставляет инструкции для таких задач, как бронирование авиабилетов, проверка прогнозов погоды и навигация по сложным интерфейсам, таким как Gimp.

Хотя Qwen2.5 не является специализированной моделью агента, как недавно представленная OpenAI CUA ^[3], он отлично справляется с анализом интерфейсов, определением нужных кнопок и планированием рабочих процессов. Эта возможность может сделать его ценным в качестве основы для открытой системы, подобной оператору.

Модель может распознавать конкретные объекты и их компоненты — например, определять, есть ли на мотоциклисте шлем. При обработке документов, таких как счета-фактуры и формы, она может выводить информацию в структурированных форматах, таких как JSON, для удобства повторного использования.

Qwen2.5-VL может, например, определять, носят ли мотоциклисты шлем, и выводить эти данные в структурированном виде.

По данным Alibaba, самая большая версия, Qwen2.5-VL-72B, по различным тестам сравнима с GPT-4o ^[4] от OpenAI, Claude 3.5 Sonnet ^[5] и Gemini 2.0 Flash ^[6], а иногда и превосходит их в таких областях, как понимание текста и визуальная поддержка, без специального обучения ^[7].

Меньшие версии, Qwen2.5-VL-7B-Instruct и Qwen2.5-VL-3B, также демонстрируют улучшения по сравнению с GPT-4o-Mini и предыдущей версией Qwen2-VL во многих задачах.

Заглядывая в будущее, команда Qwen планирует улучшить способность моделей решать задачи и рассуждать, а также добавить поддержку для большего количества типов входных данных. Их конечная цель — создать AI-модель, которая сможет обрабатывать любые входные данные и задачи, включая аудио.

Модели Qwen2.5 VL доступны с открытым исходным кодом на GitHub ^[8], Hugging Face ^[9] и ModelScope ^[10], а также в Qwen Chat ^[11], хотя существуют некоторые ограничения на коммерческое использование. Из-за китайских законов эти модели, как и модели Deepseek, не затрагивают некоторые темы, которые власти считают деликатными. ^[12]

Недавно компания расширила серию Qwen2.5 ^[13], включив в неё модель, поддерживающую контекстные окна до миллиона токенов ^[14].

Источник ^[15]

Автор: mefdayy

Источник ^[16]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11664

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года: https://the-decoder.com/alibabas-qwen2-vl-is-designed-as-a-visual-agent-that-can-analyze-over-20-minutes-of-video/

[3] CUA: https://the-decoder.com/openais-operator-and-computer-using-agent-bring-autonomous-ai-agents-closer-to-reality/

[4] GPT-4o: https://the-decoder.com/openais-new-multimodal-gpt-4-omni-combines-text-vision-and-audio-in-a-single-model/

[5] Claude 3.5 Sonnet: https://the-decoder.com/anthropic-launches-claude-3-5-potentially-the-most-capable-ai-model-yet/

[6] Gemini 2.0 Flash: https://the-decoder.com/google-launches-gemini-2-0-focusing-on-ai-agents-and-multimodal-capabilities/

[7] обучения: http://www.braintools.ru/article/5125

[8] GitHub: https://github.com/QwenLM/Qwen2-VL

[9] Hugging Face: https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

[10] ModelScope: https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

[11] Qwen Chat: https://the-decoder.com/alibaba-launches-free-web-interface-qwen-chat-for-qwen-ai-models/

[12] не затрагивают некоторые темы, которые власти считают деликатными.: https://the-decoder.com/deepseeks-v3-is-the-latest-example-of-state-controlled-censorship-in-chinese-llms/

[13] Qwen2.5: https://the-decoder.com/qwen-2-5-alibabas-new-ai-models-challenge-the-competition/

[14] до миллиона токенов: https://the-decoder.com/alibabas-qwen-releases-open-source-model-that-handles-1-million-input-tokens/

[15] Источник: https://the-decoder.com/alibaba-says-its-new-qwen2-5-vl-model-is-a-useful-visual-agent/

[16] Источник: https://habr.com/ru/companies/bothub/news/877714/?utm_source=habrahabr&utm_medium=rss&utm_campaign=877714

Нажмите здесь для печати.