Надёжность ИИ.

Ни одна ошибка не нова: почему провал ИИ в First Proof был предсказуем заранее

В начале июня 2026 вышли результаты First Proof Second Batch — первого бенчмарка, который одновременно: (1) состоит из исследовательских задач, (2) заведомо не встречавшихся в обучающих данных, и (3) проверяется живыми математиками вслепую по правилам журналов.Заголовки привычно написали: «ИИ провалил тест по математике». Но самое интересное в отчёте — не счёт, а то, что ни один тип ошибок не нов. Каждую можно было предсказать заранее из классических работ о математическом мышлении и надёжности проверок. Если сложить эти источники, результаты First Proof перестают удивлять.

продолжить чтение