DeepMind прогнали своего агента Aletheia по 700 открытым задачам из списка Эрдёша. Результат: одна из них теперь закрыта — это вторая математическая проблема, решённая ИИ без участия человека. Теренс Тао уже обновил трекер.
Но давайте на цифры. Агент вернул 212 «уверенных» ответов. После проверки людьми:
— 137 (68,5%) — фундаментально ошибочны
— 13 (6,5%) — реально решают то, что имел в виду Эрдёш
Каждый шестнадцатый. Остальное — галлюцинации или решение не той задачи.
Авторы честно пишут: «Любой из этих вопросов мог бы легко решить нужный эксперт». Проблема не в сложности — до этих задач у людей просто не доходили руки 40 лет.
Отдельный риск — «подсознательный плагиат»: модель могла впитать аргументы при обучении и воспроизвести без цитирования. Проверить почти невозможно.
Вижу параллель с программированием: Claude Code не заменяет сеньоров, но справляется с рутиной, которую раньше скидывали на джунов. В математике, похоже, начинается то же самое — ИИ научился собирать низко висящие плоды.
Вопрос: что будет, когда 68% ошибок — это не «проверим руками», а «упс, опубликовали неверное доказательство в Nature»?
Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.
Автор: ScriptShaper


