Доработанная GPT-5.2 обошла человека в «тесте на AGI». gpt-5.2.. gpt-5.2. Poetiq.. gpt-5.2. Poetiq. искусственный интеллект.. gpt-5.2. Poetiq. искусственный интеллект. Машинное обучение.
Доработанная GPT-5.2 обошла человека в «тесте на AGI» - 1

Стартап Poetiq из шести выходцев Google DeepMind добился 75% на бенчмарке ARC-AGI-2 — тесте на “гибкий интеллект” от Франсуа Шолле и команды ARC Prize. Средний человек на том же тесте набирает 60%. Результат получен на GPT-5.2 X-High при стоимости менее $8 за задачу, это примерно на 15 процентных пунктов выше предыдущего лидера — обычной GPT-5.2 X-High. Никакой специфической оптимизации под GPT-5.2 в Poetiq не проводили — просто взяли существующую обвязку и применили к новой модели.

Философия Poetiq — не строить собственные модели, а создавать “мета-систему”, которая оркестрирует чужими моделями, позволяя выжать лучший результат на определенных задачах. Механика обвязки — цикл “генерация → критика → уточнение”. Система не просто отправляет запрос и принимает ответ: она генерирует решение, анализирует его, получает обратную связь и снова обращается к модели для улучшения. Ключевой компонент — самоаудит: система сама решает, когда ответ достаточно хорош, и останавливается. В среднем получается менее двух запросов на задачу.

ARC-AGI-2 — тест, созданный для измерения способности ИИ осваивать новые навыки за пределами обучающих данных. Задачи — визуальные головоломки с цветными квадратами, где нужно найти паттерн и построить правильный ответ. Сначала модель видит примеры головоломок с решениями, из которых она выводит правило и применяет его для решения новой аналогичной задачи. Когда тест вышел в марте 2025 года, лучшие модели набирали 1–4%, сейчас же превзойден человеческий уровень.

Авторы бенчмарка из ARC Prize назвали 2025-й “годом уточняющих циклов”: прогресс теперь обеспечивают не столько сами модели, сколько системы проверки и улучшения результатов поверх них. Сейчас команда работает над третьей версией бенчмарка, которая будет еще более сложной и потребует от моделей самостоятельно перемещать элементы по интерактивному полю.

P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть“, где я рассказываю про ИИ с творческой стороны.

Автор: runaway_llm

Источник

Rambler's Top100