Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость

Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления ^[1] для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ. По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75 % точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах.

Изначально ARC создавался для измерения истинного обобщающего интеллекта ^[2], а не простого запоминания ^[3] статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный таргет.

Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость - 2

Компания Poetiq подробно описывает свой подход: их система направляет основную модель (например, GPT‑5.2) на генерацию кода для решения каждой отдельной задачи, затем исполняет этот код, проверяет корректность результата и вносит исправления, если они требуются. Несколько независимых запусков затем объединяются для повышения надёжности итогового вывода. Этот цикл сочетает мощь генеративных моделей с программным анализом и логикой ^[4] поиска, что существенно повышает итоговые баллы.

Тем не менее высокие результаты пока относятся только к «публичным» наборам данных, доступным для обучения ^[5] и оптимизации. На полусекретных наборах, которые обычно используются для официальных соревнований и частных тестов, показатели могут заметно падать, поскольку модели могли уже «усвоить» публичные примеры в процессе обучения. Это поднимает вопросы о том, насколько текущие результаты отражают настоящие способности к обобщающему мышлению, а не умение оптимизировать под конкретные тесты.

Креаторы ARC и эксперты по ИИ напоминают, что изначальная цель этих бенчмарков — стимулировать ^[6] исследования в направлении универсального интеллекта, а не просто «побить рекорд». Но то, что ARC и его продолжения теперь оказываются решаемыми с помощью инженерных решений, свидетельствует о смещении трендов в индустрии: технологии тест‑времени адаптации и решения задач на лету становятся важнее традиционных стратегий масштабирования моделей.

Делегируйте часть рутинных задач вместе с BotHub! ^[7] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[9]

Автор: cognitronn

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23755

URLs in this post:

[1] мышления: http://www.braintools.ru/thinking

[2] интеллекта: http://www.braintools.ru/article/7605

[3] запоминания: http://www.braintools.ru/article/722

[4] логикой: http://www.braintools.ru/article/7640

[5] обучения: http://www.braintools.ru/article/5125

[6] стимулировать: http://www.braintools.ru/article/5596

[7] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DEEPSEEK-OCR%20+%20LLAMA4%20+%20RAG%20=%20REVOLUTION%20IN%20THE%20WORLD%20OF%20AGENT-BASED%20OCR

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] Источник: https://the-decoder.com/the-arc-benchmarks-fall-marks-another-casualty-of-relentless-ai-optimization/

[10] Источник: https://habr.com/ru/companies/bothub/news/980920/?utm_source=habrahabr&utm_medium=rss&utm_campaign=980920

Нажмите здесь для печати.