ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.На сегодня существует две версии этого теста. Так о чем же он?ARC-AGI-1История начинается в 2019 году со статьи
Почему традиционные тесты не отражают реальный потенциал ИИ
Интеллект проявляется повсеместно, но его измерение кажется субъективным. В лучшем случае мы приблизительно оцениваем его с помощью тестов и контрольных заданий. Вспомните вступительные экзамены в колледж: каждый год бесчисленное количество студентов записываются на них, заучивают советы по подготовке к экзаменам и иногда получают идеальные баллы. Означает ли одно число, например 100%, что у тех, кто его получил, одинаковый уровень интеллекта — или что они каким-то образом максимально раскрыли свой интеллект? Конечно, нет. Тесты — это приблизительные, а не точные измерения реальных возможностей кого-либо или чего-либо.
ИИ генерирует длинные видео: возможное решение проблемы вычислительных требований
Исследователи разработали метод создания более длинных и связных видеороликов с искусственным интеллектом, которые рассказывают сложные истории.
Прогресс в AGI вызывает сомнения
Тест ARC-AGI (сокр. Abstract and Reasoning Corpus for Artificial General Intelligence), созданный в 2019 году ведущей фигурой в AI Франсуа Шолле для оценки способностей искусственного интеллекта к обучению, показывает улучшение результатов. Однако это может свидетельствовать скорее о недочетах в самом тесте, чем о реальном прорыве в развитии ИИ.

