- BrainTools - https://www.braintools.ru -
В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.
Gemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:
GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.
Самый показательный результат — 37% в Humanity’s Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»
Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:
лучшая по Omniscience Index (учитывает штрафы за ошибки [1] и выдумки),
и по Omniscience Accuracy (процент правильных ответов).
Так как качество фактов обычно хорошо коррелирует с размером модели, всё указывает на то, что Gemini 3 Pro заметно крупнее ближайших конкурентов.
В кодинге Gemini 3 Pro Preview берёт 1-е место в 2 из 3 тестов AI Index и показывает 56% в SciCode — это сразу +10 п.п. к прежнему рекорду.
В агентных сценариях (когда модель действует как «умный исполнитель» в реальной среде) результат тоже уверенный:
–> 2-е ме��то в Terminal‑Bench Hard и Tau2-Bench Telecom. То есть с задачами уровня «запусти, проверь, исправь, повтори» модель справляется не только в синтетических примерах.
Gemini 3 Pro Preview — полноценная мультимодальная модель: она понимает текст, изображения, видео и аудио.
На сложном визуальном бенчмарке MMMU‑Pro (многошаговое рассуждение по картинкам и комбинации сигналов) модель показывает лучший результат среди всех участников.
Сейчас в рейтинге MMMU‑Pro у Google сразу 1-е, 3-е и 4-е места, а 2-е — у GPT-5.1, который добавили в таблицу на прошлой неделе.
Источник: artificialanalysis.ai [2]
Для индустрии это очередной сигнал: топовые LLM уже не просто «болталки», а инструменты, которые держат факты, пишут код и работают как агенты в проде. В OTUS мы оборачиваем такие сдвиги в практические треки: на курсе «LLM Driven Development» [3]разбираем, как встраивать модели в сервисы и строить вокруг них агентные сценарии, в «AI для разработчиков» [4] — как использовать LLM в повседневной разработке.
Автор: MaxRokatansky
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22120
URLs in this post:
[1] ошибки: http://www.braintools.ru/article/4192
[2] artificialanalysis.ai: https://artificialanalysis.ai/models/gemini-3-pro
[3] «LLM Driven Development» : https://otus.pw/Sm5y/
[4] «AI для разработчиков»: https://otus.pw/QtSZl/
[5] Источник: https://habr.com/ru/companies/otus/news/968038/?utm_source=habrahabr&utm_medium=rss&utm_campaign=968038
Нажмите здесь для печати.