Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение
Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3.
Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ
Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, в понедельник объявил в блоге, что создал новый сложный тест для измерения общего интеллекта ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей.

