- BrainTools - https://www.braintools.ru -

Стартап Poetiq из шести выходцев Google DeepMind добился [1] 75% на бенчмарке ARC-AGI-2 — тесте на “гибкий интеллект” от Франсуа Шолле и команды ARC Prize. Средний человек на том же тесте набирает 60%. Результат получен на GPT-5.2 X-High при стоимости менее $8 за задачу, это примерно на 15 процентных пунктов выше предыдущего лидера — обычной GPT-5.2 X-High. Никакой специфической оптимизации под GPT-5.2 в Poetiq не проводили — просто взяли существующую обвязку и применили к новой модели.
Философия Poetiq — не строить собственные модели, а создавать “мета-систему”, которая оркестрирует чужими моделями, позволяя выжать лучший результат на определенных задачах. Механика обвязки — цикл “генерация → критика → уточнение”. Система не просто отправляет запрос и принимает ответ: она генерирует решение, анализирует его, получает обратную связь и снова обращается к модели для улучшения. Ключевой компонент — самоаудит: система сама решает, когда ответ достаточно хорош, и останавливается. В среднем получается менее двух запросов на задачу.
ARC-AGI-2 — тест, созданный для измерения способности ИИ осваивать новые навыки за пределами обучающих данных. Задачи — визуальные головоломки с цветными квадратами, где нужно найти паттерн и построить правильный ответ. Сначала модель видит примеры головоломок с решениями, из которых она выводит правило и применяет его для решения новой аналогичной задачи. Когда тест вышел в марте 2025 года, лучшие модели набирали 1–4%, сейчас же превзойден человеческий уровень.
Авторы бенчмарка из ARC Prize назвали 2025-й “годом уточняющих циклов”: прогресс теперь обеспечивают не столько сами модели, сколько системы проверки и улучшения результатов поверх них. Сейчас команда работает над третьей версией бенчмарка, которая будет еще более сложной и потребует от моделей самостоятельно перемещать элементы по интерактивному полю.
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть [2]“, где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23606
URLs in this post:
[1] добился: https://x.com/poetiq_ai/status/2003546910427361402
[2] сбежавшая нейросеть: https://t.me/ai_exee
[3] Источник: https://habr.com/ru/news/979958/?utm_source=habrahabr&utm_medium=rss&utm_campaign=979958
Нажмите здесь для печати.