- BrainTools - https://www.braintools.ru -
DeepMind прогнали своего агента Aletheia по 700 открытым задачам из списка Эрдёша. Результат: одна из них теперь закрыта — это вторая математическая проблема, решённая ИИ без участия человека. Теренс Тао уже обновил трекер.
Но давайте на цифры. Агент вернул 212 «уверенных» ответов. После проверки людьми:
— 137 (68,5%) — фундаментально ошибочны
— 13 (6,5%) — реально решают то, что имел в виду Эрдёш
Каждый шестнадцатый. Остальное — галлюцинации или решение не той задачи.
Авторы честно пишут: «Любой из этих вопросов мог бы легко решить нужный эксперт». Проблема не в сложности — до этих задач у людей просто не доходили руки 40 лет.
Отдельный риск — «подсознательный плагиат»: модель могла впитать аргументы при обучении [1] и воспроизвести без цитирования. Проверить почти невозможно.
Вижу параллель с программированием: Claude Code не заменяет сеньоров, но справляется с рутиной, которую раньше скидывали на джунов. В математике [2], похоже, начинается то же самое — ИИ научился собирать низко висящие плоды.
Вопрос: что будет, когда 68% ошибок — это не «проверим руками», а «упс, опубликовали неверное доказательство в Nature»?
Иногда пишу про такое в токены на ветер [3] — иногда о том, как LLM думают, или просто притворяются.
Автор: ScriptShaper
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25060
URLs in this post:
[1] обучении: http://www.braintools.ru/article/5125
[2] математике: http://www.braintools.ru/article/7620
[3] токены на ветер: https://t.me/tokensaway
[4] Источник: https://habr.com/ru/news/991750/?utm_source=habrahabr&utm_medium=rss&utm_campaign=991750
Нажмите здесь для печати.