Google выпустила Gemini 3.1 Pro — новую флагманскую модель семейства Gemini. На бенчмарке ARC-AGI-2, который оценивает способность решать незнакомые логические задачи, модель набрала верифицированные 77,1%— при среднем результате человека около 60%. У предшественника Gemini 3 Pro, вышедшего в ноябре, было 31,1%.

По таблице бенчмарков, которую Google опубликовала вместе с анонсом, 3.1 Pro лидирует в большинстве тестов — обходя Sonnet 4.6, Opus 4.6 и GPT-5.2. Среди заметных результатов: 94,3% в GPQA Diamond (научные знания уровня PhD), 80,6% в SWE-Bench Verified (агентское программирование), Elo 2887 в LiveCodeBench Pro (соревновательный кодинг) и 92,6% в MMMLU (мультиязычные знания). Отставание заметно лишь точечно: например, Opus 4.6 сильнее в Humanity’s Last Exam с инструментами (53,1% против 51,4%), а GPT-5.3-Codex лидирует в Terminal-Bench 2.0 (77,3% против 68,5%).
Модель доступна в preview через Gemini API в Google AI Studio, Gemini CLI, платформу Antigravity, а также в Vertex AI и Gemini Enterprise. В приложении Gemini и NotebookLM — для подписчиков Google AI Pro и Ultra. Google подчёркивает, что 3.1 Pro — это «базовый интеллект», на котором построен обновлённый Gemini 3 Deep Think, выпущенный неделей ранее с результатом 84,6% на ARC-AGI-2.
До статуса общей доступности (GA) модель пока не дошла — Google говорит, что продолжает работу над агентскими сценариями. Тем не менее, темп обновлений впечатляет: три месяца между 3 Pro и 3.1 Pro, двукратный рост на ключевом бенчмарке абстрактного мышления. Для сравнения: между Gemini 2.5 Pro и Gemini 3 Pro прошло примерно столько же, но прирост в ARC-AGI-2 тогда составил шестикратный скачок (с 4,9% до 31,1%).
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm


