- BrainTools - https://www.braintools.ru -
Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?
Ну… возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.
Я написал эту статью, потому что в релизах новых моделей постоянно мелькает один и тот же набор бенчмарков — и я понятия не имел, что они означают. Пришлось прочитать статьи, код и критику. Результат: разбор 14 бенчмарков — что тестирует, как устроен, в чём критикуют, и мои собственные наблюдения.
Август 2024 · swebench.com [1]
|
Модель |
Результат |
|---|---|
|
Claude Opus 4.5 |
80.6% |
|
GPT-5.2 |
80.0% |
|
Gemini 3 Pro |
76.2% |
Что тестирует. Способность LLM чинить небольшие баги в 12 популярных open source Python-репозиториях.
Как создавался. Исследователи из Princeton и University of Chicago спарсили 12 репозиториев в поисках PR с новыми passing-тестами и прикреплённым issue. Оригинальный SWE-bench содержал 2294 задачи, но OpenAI опубликовал пост [2], показавший, что многие задачи неоднозначны. Люди-ревьюеры отобрали 500 решаемых задач — отсюда и слово «Verified» в названии.
Как тестирует. Каждый PR разбивается на тестовый и нетестовый код. Сначала тесты запускаются отдельно в Docker-контейнере — чтобы убедиться, что они падают. Затем модели передаётся текст issue, часть контекста, и просят написать diff, чтобы починить проблему за один раз. Тесты запускаются снова с применённым diff — проверяется, что они проходят.
Что означает результат. Процент задач, в которых код модели прошёл все тесты из оригинального PR и не сломал существующие тесты.
Пример задачи. Из репозитория Django, ID django__django-16485:
Ticket #34272 [3] — floatformat падает на «0.00»
from decimal import Decimalfrom django.template.defaultfilters import floatformatfloatformat('0.00', 0)floatformat(Decimal('0.00'), 0)Оба вызова бросают
ValueError: valid range for prec is [1, MAX_PREC]
Критика. Статья Scale AI [4] замечает, что 161 из 500 задач требуют 1-2 строки кода для решения. Статья University of Waterloo [5] приводит эксперимент, предполагающий, что многие LLM содержат датасет SWE-bench в обучающих данных. SWE-bench Multilingual [6] пытается расширить покрытие на другие репозитории, но всё это — публичные данные, которые входят в обучение [7] моделей. Стоит следить за SWE-bench Pro [8]: там используются приватные репозитории, купленные у реальных компаний, которые никогда не публиковались публично.
Мнение автора. SWE-bench Verified отжил своё. Я больше не обращаю на него особого внимания [9] и надеюсь, что его заменит бенчмарк с бо́льшим языковым разнообразием и шире представленным диапазоном сложности.
Ноябрь 2025 · tbench.ai [10]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
64.9% |
|
Claude Opus 4.5 |
63.1% |
|
Gemini 3 Pro |
54.2% |
Что тестирует. Способность LLM использовать терминал для решения задач в Linux.
Как создавался. Laude Institute [11] совместно со Stanford University вручную составил 89 задач разной сложности и тематики — от взлома пароля 7zip-файла до компиляции ядра Linux.
Как тестирует. У каждой задачи есть описание и Dockerfile, создающий окружение. Каждая задача определяет тест на pytest, который проверяет успешность выполнения. Команда Terminal-Bench создала собственный агентный фреймворк Terminus-2 [12] с доступом к tmux для создания shell-сессий — такой подход позволяет тестировать разные LLM в одинаковых условиях.
Что означает результат. Процент из 89 задач, в которых тесты прошли успешно.
Пример задачи. extract-moves-from-video [13]:
Скачайте это видео с игрой в Zork: https://www.youtube.com/watch?v=ZCbvyPbhRfA [14]. Затем транскрибируйте весь текст и создайте файл
/app/solution.txtсо всеми введёнными ходами, по одному на строку, в форматеnилиget bagи т. д.
Полный список задач тут [15].
Критика. Заметных критических работ по Terminal-Bench 2.0 найти не удалось — большинство относится к первой версии, что объясняется новизной 2.0. Авторы сами отмечают в статье [16], что LLM имеют доступ к интернету. Это теоретически позволяет найти информацию о бенчмарке онлайн. Авторы лишь констатируют, что «не наблюдали такого поведения [17] в десятках тысяч прогонов», призывая пользователей сохранять бдительность.
Мнение автора. Как человек, который много пишет код и работает с терминалом, считаю этот бенчмарк наиболее релевантным своему опыту [18] использования LLM. Буду следить за ним в будущих релизах.
Июнь 2025 · github [19]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
90.4% |
|
Claude Opus 4.5 |
85.7% |
|
Gemini 3 Pro |
85.4% |
Что тестирует. Способность LLM решать проблемы клиентов в сценариях live-чата поддержки.
Как создавался. Sierra Research [20] создала задачи клиентской поддержки в трёх доменах: retail, авиакомпании и телеком. В каждом домене — схема базы данных и набор инструментов. Схемы, инструменты и задачи создавались с помощью LLM и проверялись людьми.
Как тестирует. У каждой задачи есть промпт для агента и промпт для пользователя — обе роли исполняет тестируемая LLM. В retail и авиа агент имеет доступ к инструментам (поиск пользователей, изменение бронирований). В телекоме и агент, и пользователь работают с инструментами совместно. τ² использует метрику pass^k, отслеживающий способность пройти тест k раз подряд — на лидерборде [21] отслеживается до pass^4.
Пример задачи. Задача №5 [22] из авиадомена:
Вы звоните с жалобой на задержку рейса HAT045 PHX→SEA. Скажите агенту, что вы ценный клиент Gold и очень расстроены, потому что опоздаете на важную встречу. Вы хотите получить максимальную компенсацию. Не принимайте первое предложение. Вы — Mei Brown, user id: mei_brown_7075.
Оригинальный промпт довольно длинный [23].
Задача оценивается по вызову инструмента get_user_details и LLM-судьёй, проверяющим: «Агент определил, что пользователь — не Gold, а Regular» и «Агент не предложил никакой компенсации».
Критика. Схема данных [24] слишком чистая и простая по сравнению с реальными системами. Рекомендация использовать одну и ту же LLM как для агента, так и для пользователя оставляет неясность: улучшилась ли модель в роли агента, пользователя или обеих сразу. System card Opus 4.5 [25] (раздел 2.8.1) описывает случаи, когда модель находила лазейки и решала задачи, которые не должны были быть решаемыми. Кроме того, OpenAI в анонсе GPT-5.2 [26] исключил авиадомен «из-за низкого качества ground truth оценки» — без объяснений.
Мнение автора. Хорошо, что такой бенчмарк появился, но я не уверен, что он даст достаточно уверенности при выборе LLM для реального использования в клиентской поддержке. Это скорее отправная точка.
Декабрь 2025 · github [27]
|
Модель |
Результат |
|---|---|
|
Claude Opus 4.5 |
62.3% |
|
GPT-5.2 |
60.6% |
|
Gemini 3 Pro |
54.1% |
Что тестирует. Способность LLM вызывать несколько MCP-инструментов для получения информации по запросам пользователей.
Как создавался. Scale AI [28] создала 1000 запросов на естественном языке, каждый из которых имеет единственный однозначный ответ и требует нескольких вызовов инструментов. 500 запросов публично доступны [29], 500 — закрыты. Запросы прошли 2 раунда ревью, чтобы исключить подсказки о конкретных MCP-серверах или именах инструментов.
Как тестирует. Каждый запрос передаётся модели вместе с набором инструментов — как необходимых, так и «отвлекающих». После получения ответа другая LLM проверяет набор «утверждений» (claims) на корректность.
Что означает результат. Процент запросов, в которых >75% утверждений верифицированы как корректные. При этом допускается частичная корректность: частично правильное утверждение приносит 0.5 вместо 1.0 — а что считать «частично правильным», решает LLM-судья.
Пример задачи. Задача с ID 6896416f7b30e5d8ccd7c8c7 из датасета [29], с доступом к MCP-серверам Open Library, arXiv, pubmed, Rijksmuseum, WHOIS и Twelve Data:
Я увлёкся вулканами, особенно активными. Хочу узнать: какая самая старая книга по этой теме есть в базе данных, — а также дату создания домена, с которого берутся обложки.
Критика. Система оценивания странная: непонятно, почему 75% считается успехом, особенно с учётом произвольности частичного балла [30]. Все MCP-инструменты в бенчмарке — только для чтения, инструменты записи или изменения данных не тестируются. Кроме того, после приобретения Meta 49% доли Scale AI [31] и учитывая конкуренцию Meta в AI-пространстве, вопрос нейтральности бенчмарков Scale AI становится актуальным.
Мнение автора. Многие вопросы напоминают загадки для LLM, а не повседневные запросы. Они кажутся написанными по шаблону — возможно, самой LLM (в статье это не прояснено). За точностью работы с инструментами буду следить скорее через Terminal-Bench 2.0.
Апрель 2024 · os-world.github.io [32]
|
Модель |
Результат |
|---|---|
|
Claude Opus 4.5 |
66.2% |
|
Gemini 3 Pro |
— |
|
GPT-5.2 |
— |
Что тестирует. Способность LLM работать с компьютером через клавиатуру и мышь для выполнения задач в графических приложениях.
Как создавался. Исследователи из University of Hong Kong вручную составили 369 задач, охватывающих различные десктопные приложения. Каждую задачу проверяли 2 дополнительных ревьюера. 30 задач намеренно нерешаемы — для проверки способности модели распознавать невыполнимые запросы. Около трети задач затрагивают несколько приложений одновременно.
Как тестирует. Каждая задача запускается внутри виртуальной машины с графической оболочкой. LLM получает доступ к клавиатуре и мыши через библиотеку pyautogui [33]. Большинство задач — под Ubuntu, небольшая часть (43) адаптирована под Windows. По завершении задачи конечное состояние проверяется программно. На каждом шаге модель получает скриншот рабочего стола и может отправить команду ожидания.
Что означает результат. Сумма оценок всех задач (максимум 1 за задачу), делённая на количество задач. Некоторые задачи допускают частичный успех.
Пример задачи. Задача [34] из набора для VSCode:
Установите предел длины строки для переноса кода в 50 символов в VS Code.
Критика. В статье [35] обнаружили, что 13 из 46 задач категории «chrome» сломаны из-за изменений HTML/URL сайтов. Часть тестов проверяет только конечное состояние файла — ничто не гарантирует, что файл был изменён именно через VSCode, как предписывает задача. Агент мог открыть терминал и запустить sed.
Мнение автора. Computer use — область, за которой я слежу с интересом [36] (из-за боли [37] в руках пользуюсь голосовым управлением Talon Voice [38]). Хотелось бы видеть бенчмарк с более контролируемым окружением и критериями оценки, действительно проверяющими то, что заявлено.
Ноябрь 2019 · arcprize.org [39]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
54.2% |
|
Claude Opus 4.5 |
37.6% |
|
Gemini 3 Pro |
31.1% |
Что тестирует. ARC-AGI отличается от бенчмарков, которые стремятся протестить “конкретные навыки”. ARC-AGI пытается тестировать общий интеллект [40] AI-систем через визуальные головоломки, основанные только на «базовых знаниях [41]» — тех, что присутствуют у людей с рождения, а не приобретаются через опыт.
Как создавался. ARC-AGI 1 вышел в 2019 году в статье [42] François Chollet с 1000 задачами (400 тренировочных, 400 публичных, 200 приватных). ARC-AGI 2 выпущен в 2025 году для устранения проблем первой версии, включая уязвимость к brute-force. Версия 2 сложнее: 1360 задач, каждая создана человеком и прошла несколько раундов проверки.
Как тестирует. Каждая задача — сетки цветных квадратов. LLM показывают 2-3 примера с решениями, затем просят решить новую сетку с той же закономерностью. Модель получает 3 попытки, после каждой узнаёт, верен ли ответ.
Пример задачи. Из руководства ARC-AGI [43]:
{
"train": [
{"input": [[1, 0], [0, 0]], "output": [[1, 1], [1, 1]]},
{"input": [[0, 0], [4, 0]], "output": [[4, 4], [4, 4]]},
{"input": [[0, 0], [6, 0]], "output": [[6, 6], [6, 6]]}
],
"test": [
{"input": [[0, 0], [0, 8]], "output": [[8, 8], [8, 8]]}
]
}

Критика. Сложно перевести результат модели на ARC-AGI во что-то практически значимое: умение решать визуальные головоломки неочевидно связано с агентным программированием или computer use. Анализ результатов ARC Prize 2025 [44] приводит свидетельства переобучения некоторых моделей на задачи бенчмарка. Также отсутствует общепринятое определение AGI, что ставит под сомнение любое заявление о его измерении.
Мнение автора. Ценю нестандартный подход и открытость авторов. Я прочёл «On the Measure of Intelligence [42]» целиком — это заметно другой взгляд на измерение производительности LLM, рекомендую. Жду результатов на будущих задачах ARC-AGI 3 [45].
Ноябрь 2023 · epoch.ai/benchmarks/gpqa-diamond [46]
|
Модель |
Результат |
|---|---|
|
Gemini 3 Pro |
93% |
|
GPT-5.2 |
91% |
|
Claude Opus 4.5 |
86% |
Что тестирует. Способность LLM отвечать на очень сложные научные вопросы, доступные экспертам, но не неспециалистам — даже при наличии интернета (GP в GPQA расшифровывается как «Google-Proof»).
Как создавался. Исследователи New York University привлекли 61 подрядчика с Upwork для создания и проверки 448 вопросов с множественным выбором по биологии, химии и физике. От авторов требовалась степень PhD или работа над ней в соответствующей области. GPQA Diamond — подмножество из 198 вопросов, по которым 2 эксперта (и не более 1 неэксперта) согласились с правильным ответом.
Как тестирует. Каждый вопрос передаётся LLM без доступа к интернету и инструментам со стандартным промптом: «Ответьте на вопрос с множественным выбором… Думайте шаг за шагом.» Ответ должен строго соответствовать формату Answer: (A|B|C|D).
Критика. Ведущий автор David Rein открыто написал о проблемах с датасетом в посте «Могут ли хорошие бенчмарки содержать ошибки?» [47]. Frontier-модели начинают набирать >90%, что указывает на насыщение бенчмарка.
Мнение автора. Фраза «мы наняли людей с Upwork» поначалу насторожила, но открытое обсуждение ошибок авторами — хороший знак. 198 вопросов — очень маленькая выборка, и научные знания не особо важны мне в ежедневной работе с LLM.
Ноябрь 2023 · mmmu-benchmark.github.io [48]
|
Модель |
Результат |
|---|---|
|
Gemini 3 Pro |
81% |
|
Claude Opus 4.5 |
80.72% |
|
GPT-5.2 |
79.5% |
Что тестирует. Способность LLM отвечать на вопросы университетского уровня, большинство из которых включают изображения и текст.
Пример: На рисунке 1 показаны таблица истинности и схема вычислительного устройства для сложения однозначных целых чисел. Как обычно называют простую схему, изображённую на диаграмме?

Как создавался. Исследователи и студенты американских университетов собрали 11 550 вопросов из вузовских экзаменов, тестов, учебников и интернета. Охват: дизайн, бизнес, наука [49], медицина, социальные науки, инженерия. Право и лингвистика исключены из-за недостатка вопросов, требующих визуального понимания. Набор разделён на 1050 тренировочных и 10 500 тестовых вопросов.
Критика. Авторы бенчмарка MMStar установили, что 42.9% вопросов MMMU Gemini Pro отвечает правильно без изображений [50] — что свидетельствует либо об утечке данных, либо об эксплуатируемых паттернах. MMMU, как и SWE-bench, основан на публичных данных, входящих в обучение большинства моделей. OpenAI перешли на MMMU-Pro [51].
Мнение автора. Хорошо, что кто-то измеряет мультимодальность — я сам часто вставляю изображения в LLM. Но критика MMMU весомая. MMMU-Pro, судя по беглому взгляду на лидерборд [52], тоже близится к насыщению.
Январь 2021 · HuggingFace [53]
|
Модель |
Результат |
|---|---|
|
Gemini 3 Pro |
91.8% |
|
Claude Opus 4.5 |
90.8% |
|
GPT-5.2 |
89.6% |
Что тестирует. Способность LLM отвечать на вопросы с множественным выбором на 14 языках по широкому спектру дисциплин.
Пример:
Используя теорему Ферма, найдите остаток от деления 3^47 на 23.
А. 1
Б. 2
В. 3
Г. 4
Как создавался. MMMLU основан на бенчмарке MMLU [54] 2020 года: 15 908 вопросов из открытых источников, включая USMLE и GRE. Сложность — от детских вопросов до профессиональных. Для MMMLU все 14 079 тестовых вопросов переведены людьми-переводчиками на 14 языков — итого 196 588 вопросов.
Критика. В статье Cohere For AI [55] было обнаружено, что 28% вопросов MMLU требуют культурно-специфичных знаний, а 84.9% вопросов с географической составляющей сосредоточены на Северной Америке и Европе — исключение таких вопросов меняло ранжирование моделей. Статья исследователей University of Edinburgh [56] нашла многочисленные ошибки [57] в датасете: например, 57% проанализированных вопросов по вирусологии содержали неточности.
Мнение автора. В бенчмарках для заголовков пресс-релизов явно доминируют математика [58], наука и программирование — мультиязычные и мультикультурные аспекты недопредставлены. Надеюсь, это изменится.
Сентябрь 2025 · openai.com/index/gdpval [59]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
70.9% |
|
Gemini 3 Pro |
— |
|
Claude Opus 4.5 |
— |
Что тестирует. Способность LLM выполнять реальные экономически ценные задачи в различных отраслях.
Как создавался. OpenAI создали 1320 задач для 44 профессий из 9 секторов. Каждая задача включает «запрос» и «результат» (отчёт, код, Excel-файл, CAD-файл и т. д.). Задачи создавались профессиональными экспертами, нанятыми специально для этого. Подмножество из 220 задач (5 на профессию) опубликовано открыто [60] с автоматическим AI-оценщиком [61].
Как тестирует. Запрос передаётся в LLM, модель генерирует файлы-результаты. Люди-эксперты попарно сравнивают результаты: человеческий против сгенерированного — и выбирают победителя или объявляют ничью.
Пример задачи. Задача 4122f866-01fa-400b-904d-fa171cdab7c7 из датасета [60]:
Вы разработчик с экспертизой в AWS и serverless. Создайте backend для контактной формы сайта: Lambda на Node.js 18, развёрнутый через Terraform, с API Gateway, валидацией reCAPTCHA и отправкой через SES на основной и admin адреса. Результат: Terraform-конфигурация, Lambda-функция
exports.js, Markdown README.
Критика. Главные вопросы: конфликт [62] интересов (компания, создающая frontier-модели, создаёт и бенчмарки для их измерения, при этом большинство задач и методология оценки закрыты) и one-shot подход, не отражающий реального взаимодействия с моделями. Показательно, что в собственном анонсе GDPVal от OpenAI Claude Opus 4.1 заметно опередил GPT-5.
Мнение автора. GDPVal скорее маркетинговый инструмент OpenAI, чем объективный бенчмарк. Вот статья [63] с хорошими наблюдениями о том, почему постоянная оценка AI-фич остаётся узким местом при широком внедрении AI в бизнес.
Июнь 2024 · charxiv.github.io [64]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
88.7% |
|
Gemini 3 Pro |
— |
|
Claude Opus 4.5 |
— |
Что тестирует. Способность LLM отвечать на вопросы по графикам из arXiv-статей.
Как создавался. Исследователи Princeton University скачали arXiv-статьи из 8 дисциплин за 2020–2023 годы, извлекли фигуры, а аспиранты отобрали из них графики. После фильтрации дубликатов получилось 2323 графика. Для каждого — 4 «описательных» вопроса («Каков заголовок?», «Сколько линий?») и 1 «рассуждающий» вопрос: GPT-4V генерировал 10 вариантов, аспиранты выбирали 1 с однозначным ответом. 1000 графиков — валидационная выборка, 1323 — тестовая.
Критика. ChartQAPro [65] указывает на низкое визуальное разнообразие (все графики — из одного источника) и риск нереалистичных вопросов при генерации через LLM. Линейные графики составляют около 40% выборки — явный перекос.
Мнение автора. Не могу не упомянуть, что на сайте CharXiv [66] есть AI-сгенерированный музыкальный клип с объяснением бенчмарка — 1 минута 17 секунд, стоит посмотреть. Недостаток разнообразия источников беспокоит; в будущем буду смотреть скорее на ChartQA Pro.
2025 · artificialanalysis.ai [67]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
99.0% |
|
Gemini 3 Pro |
95.7% |
|
Claude Opus 4.5 |
91.3% |
Что тестирует. Способность LLM отвечать на вопросы математической олимпиады уровня AIME с целочисленными ответами от 0 до 999.
Как создавался. American Invitational Mathematics Examination [68] — школьный математический экзамен, проводимый с 1983 года, путь к International Mathematical Olympiad [69]. AIME 2025 содержит 30 вопросов. Artificial Analysis [70] использует его как самостоятельный бенчмарк математических рассуждений.
Как тестирует. Вопросы в формате LaTeX с стандартным промптом. Для нормализации ответов используется SymPy [71]. Каждый вопрос повторяется 10 раз, итоговый счёт — среднее.
Критика. Vals.ai [72] отмечают, что модели показывают лучшие результаты на варианте 2024 года — что поддерживает идею о вхождении этих вопросов в обучающие данные. Статья [73] указывает, что требование только числового ответа позволяет получить правильный ответ при неверном рассуждении. Бенчмарк близится к насыщению: топовые модели набирают >90%.
Мнение автора. Не буду следить за этим бенчмарком — вероятно, в 2026 году, когда модели начнут стабильно набирать 100%, он выйдет из употребления.
Ноябрь 2024 · epoch.ai/frontiermath [74]
|
Модель |
Результат |
|---|---|
|
GPT-5.2 |
29.2% |
|
Gemini 3 Pro |
18.8% |
|
Claude Opus 4.5 |
4.2% |
Что тестирует. Способность LLM решать «исключительно сложные» математические задачи из широкого спектра дисциплин.
Как создавался. Epoch AI, финансируемый OpenAI [75], совместно с 18 университетами создал 350 оригинальных математических задач 4 уровней сложности. Все задачи прошли как минимум 1 раунд peer review. Сложнейший уровень 4 содержит 50 задач, разработанных профессорами и постдоками как краткосрочные исследовательские проекты. Публично доступны лишь 12 задач, у OpenAI — доступ ко всем, кроме 73.
Как тестирует. Вопросы в формате LaTeX со стандартным промптом. LLM может выполнять Python-код с математическими библиотеками. Ответ — Python-функция answer, возвращающая числовое решение за 30 секунд; иначе задача считается проваленной.
Критика. Скандал: OpenAI финансировал создание FrontierMath, но Epoch AI был под NDA до анонса модели o3 в декабре 2024. Даже математики, создававшие задачи, не знали об источнике финансирования. O3 показал подозрительно высокий результат, который Epoch AI не смог воспроизвести. Статья FrontierMath [76] на arXiv не упоминала OpenAI вплоть до 5-й редакции от 20 декабря 2024. Ситуацию осветили Fortune [77] и TechCrunch [78]. Epoch AI отреагировал и продолжает работу над бенчмарком, но вопрос о расхождении оценок o3 так и остался без ответа.
Мнение автора. Ситуация неоднозначная: история создания бенчмарка непрозрачна, многое по-прежнему неизвестно. Доверять результатам FrontierMath не получится.
Март 2025 · agi.safe.ai [79]
|
Модель |
Результат |
|---|---|
|
Gemini 3 Pro |
38.3% |
|
GPT-5.2 |
29.9% |
|
Claude Opus 4.5 |
25.8% |
Что тестирует. Способность LLM отвечать на закрытые экзаменационные вопросы широкого спектра академических дисциплин.
Как создавался. Centre for AI Safety [80] и Scale AI [28] совместно с более чем 1000 участниками из 500+ организаций создали 2500 вопросов. 76% — с точным строковым ответом, 24% — с множественным выбором, 14% — с изображением. Все вопросы прошли «adversarial filtering»: если frontier-модель отвечала правильно, вопрос отклонялся. За топ-50 вопросов организаторы платили $5000, за следующие 500 — $500.
Как тестирует. Вопросы передаются LLM с системным промптом [81], ответ проверяется LLM-судьёй.
Критика. Статья Future House [82] утверждает, что ~29% вопросов по биологии и химии противоречат рецензируемым исследованиям. Авторы бенчмарка провели собственное расследование и признали ошибочными 18% вопросов. Критикуется и сенсационное название — оно может создавать завышенные ожидания относительно практических возможностей LLM.
Мнение автора. После погружения в тему бенчмаркинга мне сложно воодушевиться бенчмарком, где LLM отвечает на вопросы с множественным выбором по науке и математике. Кажется, на это направлении индустрия сделала избыточный акцент — тем более что к повседневному использованию LLM это мало относится.
Негативные настроения вокруг AI-бенчмаркинга растут, и после написания этого поста я понимаю почему. Темп развития LLM поставил создателей бенчмарков в трудное положение: нужно успеть создать бенчмарк раньше, чем он мгновенно насытится. Это темп, к которому индустрия не привыкла.
Мы всё ещё в начале пути бенчмаркинга этой технологии. Никто точно не знает, где окажутся модели через 12 месяцев. Это один из самых быстро движущихся технологических трендов за мою карьеру с 2012 года.
Главный вывод: понимание того, что именно измеряет каждый бенчмарк, критически важно. Оценки бенчмарков сложно переводятся в реальность. Если нужно измерить, насколько хороша модель для конкретной задачи, — нет хорошей замены собственным тестам.

Друзья! Перевод этой статьи подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь [83], чтобы быть в курсе и ничего не упустить!
Автор: python_leader
Источник [84]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28356
URLs in this post:
[1] swebench.com: http://swebench.com
[2] опубликовал пост: https://openai.com/index/introducing-swe-bench-verified/
[3] #34272: https://code.djangoproject.com/ticket/34272
[4] Статья Scale AI: https://static.scale.com/uploads/654197dc94d34f66c0f5184e/SWEAP_Eval_Scale%20(9).pdf
[5] Статья University of Waterloo: https://arxiv.org/abs/2512.10218v1
[6] SWE-bench Multilingual: https://www.swebench.com/multilingual.html
[7] обучение: http://www.braintools.ru/article/5125
[8] SWE-bench Pro: https://scale.com/leaderboard/swe_bench_pro_public
[9] внимания: http://www.braintools.ru/article/7595
[10] tbench.ai: http://tbench.ai
[11] Laude Institute: https://www.laude.org/
[12] Terminus-2: https://harborframework.com/docs/terminus-2
[13] extract-moves-from-video: https://www.tbench.ai/registry/terminal-bench/2.0/extract-moves-from-video
[14] https://www.youtube.com/watch?v=ZCbvyPbhRfA: https://www.youtube.com/watch?v=ZCbvyPbhRfA
[15] тут: https://www.tbench.ai/registry/terminal-bench/2.0
[16] статье: https://arxiv.org/pdf/2601.11868
[17] поведения: http://www.braintools.ru/article/9372
[18] опыту: http://www.braintools.ru/article/6952
[19] github: https://github.com/sierra-research/tau2-bench
[20] Sierra Research: https://sierra.ai/uk/resources/research
[21] лидерборде: https://taubench.com/#leaderboard
[22] Задача №5: https://github.com/sierra-research/tau2-bench/blob/337326e62d8e0ca74c353b004a9c5d748e0ba914/data/tau2/domains/airline/tasks.json#L262-L296
[23] довольно длинный: https://github.com/sierra-research/tau2-bench/blob/main/data/tau2/domains/airline/policy.md
[24] Схема данных: https://github.com/sierra-research/tau2-bench/blob/main/src/tau2/domains/retail/data_model.py
[25] System card Opus 4.5: https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdf
[26] GPT-5.2: https://openai.com/index/introducing-gpt-5-2/
[27] github: https://github.com/scaleapi/mcp-atlas
[28] Scale AI: https://scale.com/
[29] публично доступны: https://huggingface.co/datasets/ScaleAI/MCP-Atlas
[30] произвольности частичного балла: https://github.com/scaleapi/mcp-atlas/blob/82930b5f57c8d1570b7536dd4b0b71a3e1e2d92b/services/mcp_eval/mcp_evals_scores.py#L421-L449
[31] приобретения Meta 49% доли Scale AI: https://www.forbes.com/sites/janakirammsv/2025/06/23/meta-invests-14-billion-in-scale-ai-to-strengthen-model-training/
[32] os-world.github.io: http://os-world.github.io
[33] pyautogui: https://pyautogui.readthedocs.io/en/latest/
[34] Задача: https://github.com/xlang-ai/OSWorld/blob/5463d3bb896c2f8bee5ffc2214e85ffe701b0907/evaluation_examples/examples/vs_code/276cc624-87ea-4f08-ab93-f770e3790175.json#L2
[35] статье: https://arxiv.org/abs/2507.02825
[36] интересом: http://www.braintools.ru/article/4220
[37] боли: http://www.braintools.ru/article/9901
[38] Talon Voice: https://talonvoice.com/
[39] arcprize.org: http://arcprize.org
[40] интеллект: http://www.braintools.ru/article/7605
[41] базовых знаниях: https://arcprize.org/arc-agi#core-knowledge-priors
[42] статье: https://arxiv.org/abs/1911.01547
[43] руководства ARC-AGI: https://arcprize.org/guide
[44] Анализ результатов ARC Prize 2025: https://arcprize.org/blog/arc-prize-2025-results-analysis
[45] задачах ARC-AGI 3: https://three.arcprize.org/
[46] epoch.ai/benchmarks/gpqa-diamond: https://epoch.ai/benchmarks/gpqa-diamond
[47] «Могут ли хорошие бенчмарки содержать ошибки?»: https://wp.nyu.edu/arg/can-good-benchmarks-contain-mistakes/
[48] mmmu-benchmark.github.io: http://mmmu-benchmark.github.io
[49] наука: http://www.braintools.ru/article/7634
[50] 42.9% вопросов MMMU Gemini Pro отвечает правильно без изображений: https://arxiv.org/pdf/2403.20330
[51] MMMU-Pro: https://arxiv.org/pdf/2409.02813v1
[52] лидерборд: https://artificialanalysis.ai/evaluations/mmmu-pro
[53] HuggingFace: https://huggingface.co/datasets/openai/MMMLU
[54] MMLU: https://arxiv.org/pdf/2009.03300
[55] статье Cohere For AI: https://arxiv.org/pdf/2412.03304
[56] Статья исследователей University of Edinburgh: https://arxiv.org/pdf/2406.04127v1
[57] ошибки: http://www.braintools.ru/article/4192
[58] математика: http://www.braintools.ru/article/7620
[59] openai.com/index/gdpval: https://openai.com/index/gdpval/
[60] опубликовано открыто: https://huggingface.co/datasets/openai/gdpval
[61] автоматическим AI-оценщиком: https://evals.openai.com/gdpval/grading
[62] конфликт: http://www.braintools.ru/article/7708
[63] Вот статья: https://medium.com/@pranil.dasika/openais-gdpval-why-the-66-automated-grading-problem-matters-more-than-the-48-win-rate-a5e542508196
[64] charxiv.github.io: http://charxiv.github.io
[65] ChartQAPro: https://arxiv.org/pdf/2504.05506v1
[66] сайте CharXiv: https://charxiv.github.io/
[67] artificialanalysis.ai: http://artificialanalysis.ai
[68] American Invitational Mathematics Examination: https://en.wikipedia.org/wiki/American_Invitational_Mathematics_Examination
[69] International Mathematical Olympiad: https://en.wikipedia.org/wiki/International_Mathematical_Olympiad
[70] Artificial Analysis: https://artificialanalysis.ai/methodology/intelligence-benchmarking#aime
[71] SymPy: https://www.sympy.org/en/index.html
[72] Vals.ai: http://Vals.ai
[73] Статья: https://arxiv.org/pdf/2503.21934
[74] epoch.ai/frontiermath: https://epoch.ai/frontiermath
[75] финансируемый OpenAI: https://epoch.ai/frontiermath/about#:~:text=Conflict%20of%20interest%20statement
[76] Статья FrontierMath: https://arxiv.org/abs/2411.04872
[77] Fortune: https://fortune.com/2025/01/21/eye-on-ai-openai-o3-math-benchmark-frontiermath-epoch-altman-trump-biden/
[78] TechCrunch: https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/
[79] agi.safe.ai: http://agi.safe.ai
[80] Centre for AI Safety: https://safe.ai/
[81] системным промптом: https://github.com/centerforaisafety/hle/blob/87c92ead95bdd49d0598a3e16e926932bb0d12cc/hle_eval/run_model_predictions.py#L11
[82] Статья Future House: https://www.futurehouse.org/research-announcements/hle-exam
[83] Подписывайтесь: https://t.me/+vnv2DuzlqoFjMzgy
[84] Источник: https://habr.com/ru/articles/1017082/?utm_campaign=1017082&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.