- BrainTools - https://www.braintools.ru -

Baidu выпустила новую мультимодальную модель ERNIE-4.5-VL-28B-A3B-Thinking [1], и по ряду бенчмарков она уже показывает результаты выше GPT-5-High и Gemini 2.5 Pro. Главный акцент — на корпоративных данных, которые остаются недоступными для классических текстовых моделей: инженерные схемы, видео с производственных линий, медицинские изображения и другой «тяжёлый» контент.
Архитектурно ERNIE примечательна тем, что остаётся «лёгкой»: в процессе работы активируется порядка трёх миллиардов параметров. Это снижает стоимость инференса и делает модель потенциально более пригодной для проектов, где масштабирование ИИ тормозится из-за цены вычислений. В Baidu видят в этом основу для мультимодальных агентов нового поколения — не просто распознающих, но и способных рассуждать, принимать решения и действовать.
Модель демонстрирует уверенную работу с плотными визуальными данными: от анализа графиков с подсказками по оптимальному времени посещения до решения схем с применением законов Ома и Кирхгофа. В технических департаментах такая система может проверять проектные документы или помогать новичкам разбираться в сложных чертежах.
По данным Baidu, ERNIE опередила конкурентов на нескольких популярных тестах:
MathVista: ERNIE (82.5) против Gemini (82.3) и GPT (81.3)
ChartQA: ERNIE (87.1) против Gemini (76.3) и GPT (78.2)
VLMs Are Blind: ERNIE (77.3) против Gemini (76.5) и GPT (69.6)
При этом Baidu подчёркивает очевидное: бенчмарки — индикатор, но не гарантия реальных результатов. Перед внедрением ИИ в критичные процессы нужен внутренний пилот.
Одно из ключевых направлений развития ERNIE — переход от «понимания» к автоматизации. Модель умеет находить объекты на изображении, возвращать координаты в структурированном виде, увеличивать нужный фрагмент для чтения текста, а при необходимости — инициировать поиск по изображению. Это уже не пассивный ассистент, а инструмент, который может сам анализировать данные, уточнять детали и предлагать варианты действий.
Ставка делается и на корпоративные видеоархивы. ERNIE извлекает субтитры, привязывает их к тайм-кодам, находит нужные сцены по визуальным признакам и превращает многолетние видеотеки в полноценный поисковый индекс.
Развёртывание, впрочем, потребует внушительных ресурсов: одного GPU с 80 ГБ видеопамяти. Для компаний, у которых инфраструктура уже есть, Baidu предлагает ERNIEKit — инструментарий для тонкой настройки модели на собственных данных. Лицензия Apache 2.0 позволяет коммерческое использование, что важно для интеграции в продукты и сервисы.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» [2] — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Автор: madballer34
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21884
URLs in this post:
[1] ERNIE-4.5-VL-28B-A3B-Thinking: https://huggingface.co/baidu/ERNIE-4.5-VL-28B-A3B-Thinking
[2] «Голос Технократии»: https://t.me/+vvm8PwCuv-EyZGY6
[3] Источник: https://habr.com/ru/companies/technokratos/news/966128/?utm_source=habrahabr&utm_medium=rss&utm_campaign=966128
Нажмите здесь для печати.