Google выпустила Gemini 3.1 Pro — лучший ИИ в большинстве бенчмарков

Google выпустила Gemini 3.1 Pro — новую флагманскую модель семейства Gemini. На бенчмарке ARC-AGI-2, который оценивает способность решать незнакомые логические задачи, модель набрала верифицированные 77,1% ^[1]— при среднем результате человека около 60%. У предшественника Gemini 3 Pro, вышедшего в ноябре, было 31,1%.

По таблице бенчмарков, которую Google опубликовала вместе с анонсом, 3.1 Pro лидирует в большинстве тестов — обходя Sonnet 4.6, Opus 4.6 и GPT-5.2. Среди заметных результатов: 94,3% в GPQA Diamond (научные знания уровня PhD), 80,6% в SWE-Bench Verified (агентское программирование), Elo 2887 в LiveCodeBench Pro (соревновательный кодинг) и 92,6% в MMMLU (мультиязычные знания). Отставание заметно лишь точечно: например, Opus 4.6 сильнее в Humanity’s Last Exam с инструментами (53,1% против 51,4%), а GPT-5.3-Codex лидирует в Terminal-Bench 2.0 (77,3% против 68,5%).

Модель доступна в preview через Gemini API в Google AI Studio, Gemini CLI, платформу Antigravity, а также в Vertex AI и Gemini Enterprise. В приложении Gemini и NotebookLM — для подписчиков Google AI Pro и Ultra. Google подчёркивает, что 3.1 Pro — это «базовый интеллект», на котором построен обновлённый Gemini 3 Deep Think, выпущенный неделей ранее с результатом 84,6% на ARC-AGI-2.

До статуса общей доступности (GA) модель пока не дошла — Google говорит, что продолжает работу над агентскими сценариями. Тем не менее, темп обновлений впечатляет: три месяца между 3 Pro и 3.1 Pro, двукратный рост на ключевом бенчмарке абстрактного мышления ^[2]. Для сравнения: между Gemini 2.5 Pro и Gemini 3 Pro прошло примерно столько же, но прирост в ARC-AGI-2 тогда составил шестикратный скачок (с 4,9% до 31,1%).

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть ^[3]“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25931

URLs in this post:

[1] верифицированные 77,1%: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

[2] мышления: http://www.braintools.ru/thinking

[3] сбежавшая нейросеть: https://t.me/ai_exee

[4] Источник: https://habr.com/ru/news/1001566/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1001566

Нажмите здесь для печати.