ИИ решил задачу Эрдёша — но есть нюанс

DeepMind прогнали своего агента Aletheia по 700 открытым задачам из списка Эрдёша. Результат: одна из них теперь закрыта — это вторая математическая проблема, решённая ИИ без участия человека. Теренс Тао уже обновил трекер.

Но давайте на цифры. Агент вернул 212 «уверенных» ответов. После проверки людьми:
— 137 (68,5%) — фундаментально ошибочны
— 13 (6,5%) — реально решают то, что имел в виду Эрдёш

Каждый шестнадцатый. Остальное — галлюцинации или решение не той задачи.

Авторы честно пишут: «Любой из этих вопросов мог бы легко решить нужный эксперт». Проблема не в сложности — до этих задач у людей просто не доходили руки 40 лет.

Отдельный риск — «подсознательный плагиат»: модель могла впитать аргументы при обучении ^[1] и воспроизвести без цитирования. Проверить почти невозможно.

Вижу параллель с программированием: Claude Code не заменяет сеньоров, но справляется с рутиной, которую раньше скидывали на джунов. В математике ^[2], похоже, начинается то же самое — ИИ научился собирать низко висящие плоды.

Вопрос: что будет, когда 68% ошибок — это не «проверим руками», а «упс, опубликовали неверное доказательство в Nature»?

Иногда пишу про такое в токены на ветер ^[3] — иногда о том, как LLM думают, или просто притворяются.

Автор: ScriptShaper

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25060

URLs in this post:

[1] обучении: http://www.braintools.ru/article/5125

[2] математике: http://www.braintools.ru/article/7620

[3] токены на ветер: https://t.me/tokensaway

[4] Источник: https://habr.com/ru/news/991750/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991750

Нажмите здесь для печати.