Artificial Analysis обновили свой Intelligence Index

В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.

Фактические знания и галлюцинации

Gemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:
GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.

Самый показательный результат — 37% в Humanity’s Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»

Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:

лучшая по Omniscience Index (учитывает штрафы за ошибки ^[1] и выдумки),
и по Omniscience Accuracy (процент правильных ответов).

Так как качество фактов обычно хорошо коррелирует с размером модели, всё указывает на то, что Gemini 3 Pro заметно крупнее ближайших конкурентов.

Код и агентные задачи

В кодинге Gemini 3 Pro Preview берёт 1-е место в 2 из 3 тестов AI Index и показывает 56% в SciCode — это сразу +10 п.п. к прежнему рекорду.

В агентных сценариях (когда модель действует как «умный исполнитель» в реальной среде) результат тоже уверенный:
–> 2-е ме��то в Terminal‑Bench Hard и Tau2-Bench Telecom. То есть с задачами уровня «запусти, проверь, исправь, повтори» модель справляется не только в синтетических примерах.

Мультимодальность

Gemini 3 Pro Preview — полноценная мультимодальная модель: она понимает текст, изображения, видео и аудио.

На сложном визуальном бенчмарке MMMU‑Pro (многошаговое рассуждение по картинкам и комбинации сигналов) модель показывает лучший результат среди всех участников.

Сейчас в рейтинге MMMU‑Pro у Google сразу 1-е, 3-е и 4-е места, а 2-е — у GPT-5.1, который добавили в таблицу на прошлой неделе.

Источник: artificialanalysis.ai ^[2]

Для индустрии это очередной сигнал: топовые LLM уже не просто «болталки», а инструменты, которые держат факты, пишут код и работают как агенты в проде. В OTUS мы оборачиваем такие сдвиги в практические треки: на курсе «LLM Driven Development» ^[3]разбираем, как встраивать модели в сервисы и строить вокруг них агентные сценарии, в «AI для разработчиков» ^[4] — как использовать LLM в повседневной разработке.

Автор: MaxRokatansky

Источник ^[5]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22120

URLs in this post:

[1] ошибки: http://www.braintools.ru/article/4192

[2] artificialanalysis.ai: https://artificialanalysis.ai/models/gemini-3-pro

[3] «LLM Driven Development» : https://otus.pw/Sm5y/

[4] «AI для разработчиков»: https://otus.pw/QtSZl/

[5] Источник: https://habr.com/ru/companies/otus/news/968038/?utm_source=habrahabr&utm_medium=rss&utm_campaign=968038

Нажмите здесь для печати.