- BrainTools - https://www.braintools.ru -

Вышла мультимодальная модель, разработанная для понимания интерфейсов

Вышла мультимодальная модель, разработанная для понимания интерфейсов - 1

Представлена Holo2, мультимодальная модель нового поколения, разработанная для понимания интерфейсов, эффективной навигации и рассуждений в веб-пространстве, на десктопах и мобильных устройствах. Модель демонстрирует существенное улучшение ключевых показателей на бенчмарках UI-grounding, достигая 66,1% на ScreenSpot-Pro и 76,1% на OSWorld-G, что выше предыдущих версий на 3–5% и превосходит все существующие аналоги.

Вышла мультимодальная модель, разработанная для понимания интерфейсов - 2

Архитектура Holo2 основана на Qwen3-VL и обеспечивает глубокое понимание интерфейсов, улучшенную навигацию и способность рассуждать, чего не хватало предыдущим версиям. Модель одинаково хорошо работает в браузере, на Ubuntu и Android, что делает её удобной для интеграции в разные среды и платформы.

Флагманская версия 30B-A3B использует Mixture of Experts, активируя только 3B параметров на каждом шаге, что позволяет выдавать качество модели 30B при значительно меньшей вычислительной стоимости. Модель самостоятельно генерирует reasoning-токены, повышая точность и устойчивость к контексту. Holo2 полностью совместима с архитектурой Surfer 2 и ReAct-пайплайнами, что делает её подходящей для создания продвинутых UI-агентов.

Вышла мультимодальная модель, разработанная для понимания интерфейсов - 3

Развёртывание Holo2 возможно напрямую через vLLM и любой фреймворк, совместимый с Qwen3-VL. Лицензии модели распределены следующим образом: версии 4B и 8B доступны под Apache-2, а версия 30B-A3B предназначена только для некоммерческого использования.

Подробности, инструкции и примеры использования доступны в блоге [1]компании, на HuggingFace [2]и в Cookbook [3]. [2]


Делегируйте часть рутинных задач вместе с BotHub! [4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22021

URLs in this post:

[1] блоге : https://ttp://hcompany.ai/blog/holo2

[2] HuggingFace : https://huggingface.co/collections/Hcompany/holo2

[3] Cookbook: https://github.com/hcompai/hai-cookbook/blob/main/holo2/holo_2_localization_huggingface.ipynb

[4] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=A%20MULTIMODAL%20MODEL%20DESIGNED%20FOR%20INTERFACE%20UNDERSTANDING%20HAS%20BEEN%20RELEASED

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Источник: https://habr.com/ru/companies/bothub/news/967344/?utm_source=habrahabr&utm_medium=rss&utm_campaign=967344

www.BrainTools.ru

Rambler's Top100