
ARC Prize Foundation опубликовала технический отчет о третьей версии бенчмарка ARC-AGI — теста на общий интеллект, созданного Франсуа Шолле, автором фреймворка Keras. В отличие от предыдущих версий, где модели угадывали правила по статичным парам “вход — выход” на цветных сетках, ARC-AGI-3 — это 135 интерактивных пошаговых сред, по сути мини-игр на сетке 64×64. Агент должен сам исследовать среду, понять ее механики и догадаться о цели: никаких инструкций ему не дают.
Бенчмарк измеряет четыре компонента агентного интеллекта: исследование, построение модели мира, самостоятельное целеполагание и планирование. Ключевая метрика — RHAE — считает не просто факт решения, а эффективность в действиях по сравнению с людьми. Формула квадратичная: если человек прошел уровень за 10 действий, а ИИ за 100, модель получает не 10%, а 1%. Каждую среду калибровали на живых людях — 486 участников проходили тестирование в Сан-Франциско трижды в неделю. Среда попадала в бенчмарк, только если минимум двое из десяти тестировщиков проходили ее полностью с первой попытки.
Результаты передовых моделей на полуприватном наборе: Gemini 3.1 Pro Preview — 0,37%, GPT-5.4 (High) — 0,26%, Opus 4.6 (Max) — 0,25%, Grok-4.20 — 0,00%. Люди при этом решают 100% сред, медианное время — 7,4 минуты. Авторы подчеркивают: причина перехода к интерактивному формату — компрометация предыдущих версий. В отчете приводится пример: Gemini 3 в цепочке рассуждений использует правильный маппинг чисел на цвета из ARC-AGI, хотя в промпте об этом ни слова. Это значит, что данные бенчмарка представлены в обучающих выборках моделей.
Самое спорное решение — официальный лидерборд учитывает только ИИ, работающие без “харнесса”, то есть программных инструментов, помогающих ему решить задачу. Модели получают единый минимальный промпт: “Вы играете в игру. Ваша цель — выиграть”. Для харнесс-решений, впрочем, предусмотрено отдельное состязание, в котором может принять участие коммьюнити.
Авторы обосновывают это так: с харнессом Duke тот же Opus 4.6 набирает 97,1% на одной среде и 0% на другой — харнесс не обобщается и измеряет не интеллект модели, а инженерное усилие. Людей в тестовом центре тоже никто не инструктирует — значит, условия должны быть сопоставимы. Тезис создателя бенчмарка Франсуа Шолле: настоящий AGI не должен нуждаться во внешних подпорках, чтобы разобраться в незнакомой задаче — точно так же, как не нуждается в них человек.
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm


