Baidu представила мультимодальную ERNIE, которая обходит GPT и Gemini в ключевых тестах. ai.. ai. artificial intelligence.. ai. artificial intelligence. baidu.. ai. artificial intelligence. baidu. llm.. ai. artificial intelligence. baidu. llm. Natural Language Processing.. ai. artificial intelligence. baidu. llm. Natural Language Processing. Open source.. ai. artificial intelligence. baidu. llm. Natural Language Processing. Open source. Блог компании Технократия.. ai. artificial intelligence. baidu. llm. Natural Language Processing. Open source. Блог компании Технократия. ИИ.. ai. artificial intelligence. baidu. llm. Natural Language Processing. Open source. Блог компании Технократия. ИИ. искусственный интеллект.
Baidu представила мультимодальную ERNIE, которая обходит GPT и Gemini в ключевых тестах - 1

Baidu выпустила новую мультимодальную модель ERNIE-4.5-VL-28B-A3B-Thinking, и по ряду бенчмарков она уже показывает результаты выше GPT-5-High и Gemini 2.5 Pro. Главный акцент — на корпоративных данных, которые остаются недоступными для классических текстовых моделей: инженерные схемы, видео с производственных линий, медицинские изображения и другой «тяжёлый» контент.

Архитектурно ERNIE примечательна тем, что остаётся «лёгкой»: в процессе работы активируется порядка трёх миллиардов параметров. Это снижает стоимость инференса и делает модель потенциально более пригодной для проектов, где масштабирование ИИ тормозится из-за цены вычислений. В Baidu видят в этом основу для мультимодальных агентов нового поколения — не просто распознающих, но и способных рассуждать, принимать решения и действовать.

Модель демонстрирует уверенную работу с плотными визуальными данными: от анализа графиков с подсказками по оптимальному времени посещения до решения схем с применением законов Ома и Кирхгофа. В технических департаментах такая система может проверять проектные документы или помогать новичкам разбираться в сложных чертежах.

По данным Baidu, ERNIE опередила конкурентов на нескольких популярных тестах:

  • MathVista: ERNIE (82.5) против Gemini (82.3) и GPT (81.3)

  • ChartQA: ERNIE (87.1) против Gemini (76.3) и GPT (78.2)

  • VLMs Are Blind: ERNIE (77.3) против Gemini (76.5) и GPT (69.6)

При этом Baidu подчёркивает очевидное: бенчмарки — индикатор, но не гарантия реальных результатов. Перед внедрением ИИ в критичные процессы нужен внутренний пилот.

Одно из ключевых направлений развития ERNIE — переход от «понимания» к автоматизации. Модель умеет находить объекты на изображении, возвращать координаты в структурированном виде, увеличивать нужный фрагмент для чтения текста, а при необходимости — инициировать поиск по изображению. Это уже не пассивный ассистент, а инструмент, который может сам анализировать данные, уточнять детали и предлагать варианты действий.

Ставка делается и на корпоративные видеоархивы. ERNIE извлекает субтитры, привязывает их к тайм-кодам, находит нужные сцены по визуальным признакам и превращает многолетние видеотеки в полноценный поисковый индекс.

Развёртывание, впрочем, потребует внушительных ресурсов: одного GPU с 80 ГБ видеопамяти. Для компаний, у которых инфраструктура уже есть, Baidu предлагает ERNIEKit — инструментарий для тонкой настройки модели на собственных данных. Лицензия Apache 2.0 позволяет коммерческое использование, что важно для интеграции в продукты и сервисы.


Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Автор: madballer34

Источник

Rambler's Top100