- BrainTools - https://www.braintools.ru -
В рамках своей серии Qwen2.5 компания Alibaba представила новую мультимодальную визуальную языковую модель, которая стала ещё одним шагом на пути к развитию искусственного интеллекта [1] в коммерческой сфере.

Основываясь на модели Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года [2], новая версия обещает более эффективную обработку различных типов данных, включая текст, изображения и часовые видео. Команда говорит, что они добились особого прогресса в работе с диаграммами, иконками, графикой и макетами. Модель доступна в трёх вариантах: 3, 7 и 72 миллиарда параметров.
По словам компании, эти улучшения также делают модель полезной в качестве визуального помощника. В нескольких демонстрационных версиях Alibaba показывает, как Qwen2.5 анализирует содержимое экрана и предоставляет инструкции для таких задач, как бронирование авиабилетов, проверка прогнозов погоды и навигация по сложным интерфейсам, таким как Gimp.
Хотя Qwen2.5 не является специализированной моделью агента, как недавно представленная OpenAI CUA [3], он отлично справляется с анализом интерфейсов, определением нужных кнопок и планированием рабочих процессов. Эта возможность может сделать его ценным в качестве основы для открытой системы, подобной оператору.
Модель может распознавать конкретные объекты и их компоненты — например, определять, есть ли на мотоциклисте шлем. При обработке документов, таких как счета-фактуры и формы, она может выводить информацию в структурированных форматах, таких как JSON, для удобства повторного использования.
По данным Alibaba, самая большая версия, Qwen2.5-VL-72B, по различным тестам сравнима с GPT-4o [4] от OpenAI, Claude 3.5 Sonnet [5] и Gemini 2.0 Flash [6], а иногда и превосходит их в таких областях, как понимание текста и визуальная поддержка, без специального обучения [7].
Меньшие версии, Qwen2.5-VL-7B-Instruct и Qwen2.5-VL-3B, также демонстрируют улучшения по сравнению с GPT-4o-Mini и предыдущей версией Qwen2-VL во многих задачах.
Заглядывая в будущее, команда Qwen планирует улучшить способность моделей решать задачи и рассуждать, а также добавить поддержку для большего количества типов входных данных. Их конечная цель — создать AI-модель, которая сможет обрабатывать любые входные данные и задачи, включая аудио.
Модели Qwen2.5 VL доступны с открытым исходным кодом на GitHub [8], Hugging Face [9] и ModelScope [10], а также в Qwen Chat [11], хотя существуют некоторые ограничения на коммерческое использование. Из-за китайских законов эти модели, как и модели Deepseek, не затрагивают некоторые темы, которые власти считают деликатными. [12]
Недавно компания расширила серию Qwen2.5 [13], включив в неё модель, поддерживающую контекстные окна до миллиона токенов [14].
Источник [15]
Автор: mefdayy
Источник [16]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11664
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] Qwen2-VL с открытым исходным кодом, выпущенной осенью 2024 года: https://the-decoder.com/alibabas-qwen2-vl-is-designed-as-a-visual-agent-that-can-analyze-over-20-minutes-of-video/
[3] CUA: https://the-decoder.com/openais-operator-and-computer-using-agent-bring-autonomous-ai-agents-closer-to-reality/
[4] GPT-4o: https://the-decoder.com/openais-new-multimodal-gpt-4-omni-combines-text-vision-and-audio-in-a-single-model/
[5] Claude 3.5 Sonnet: https://the-decoder.com/anthropic-launches-claude-3-5-potentially-the-most-capable-ai-model-yet/
[6] Gemini 2.0 Flash: https://the-decoder.com/google-launches-gemini-2-0-focusing-on-ai-agents-and-multimodal-capabilities/
[7] обучения: http://www.braintools.ru/article/5125
[8] GitHub: https://github.com/QwenLM/Qwen2-VL
[9] Hugging Face: https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
[10] ModelScope: https://modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47
[11] Qwen Chat: https://the-decoder.com/alibaba-launches-free-web-interface-qwen-chat-for-qwen-ai-models/
[12] не затрагивают некоторые темы, которые власти считают деликатными.: https://the-decoder.com/deepseeks-v3-is-the-latest-example-of-state-controlled-censorship-in-chinese-llms/
[13] Qwen2.5: https://the-decoder.com/qwen-2-5-alibabas-new-ai-models-challenge-the-competition/
[14] до миллиона токенов: https://the-decoder.com/alibabas-qwen-releases-open-source-model-that-handles-1-million-input-tokens/
[15] Источник: https://the-decoder.com/alibaba-says-its-new-qwen2-5-vl-model-is-a-useful-visual-agent/
[16] Источник: https://habr.com/ru/companies/bothub/news/877714/?utm_source=habrahabr&utm_medium=rss&utm_campaign=877714
Нажмите здесь для печати.