ИИ решил задачу Эрдёша — но есть нюанс. Ai agents.. Ai agents. Aletheia.. Ai agents. Aletheia. deepmind.. Ai agents. Aletheia. deepmind. gemini.. Ai agents. Aletheia. deepmind. gemini. llm.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство. искусственный интеллект.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство. искусственный интеллект. математика.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство. искусственный интеллект. математика. Машинное обучение.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство. искусственный интеллект. математика. Машинное обучение. научно-популярное.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство. искусственный интеллект. математика. Машинное обучение. научно-популярное. Теренс Тао.. Ai agents. Aletheia. deepmind. gemini. llm. Алгоритмы. Доказательство. искусственный интеллект. математика. Машинное обучение. научно-популярное. Теренс Тао. Эрдёш.

DeepMind прогнали своего агента Aletheia по 700 открытым задачам из списка Эрдёша. Результат: одна из них теперь закрыта — это вторая математическая проблема, решённая ИИ без участия человека. Теренс Тао уже обновил трекер.

Но давайте на цифры. Агент вернул 212 «уверенных» ответов. После проверки людьми:
— 137 (68,5%) — фундаментально ошибочны
— 13 (6,5%) — реально решают то, что имел в виду Эрдёш

Каждый шестнадцатый. Остальное — галлюцинации или решение не той задачи.

Авторы честно пишут: «Любой из этих вопросов мог бы легко решить нужный эксперт». Проблема не в сложности — до этих задач у людей просто не доходили руки 40 лет.

Отдельный риск — «подсознательный плагиат»: модель могла впитать аргументы при обучении и воспроизвести без цитирования. Проверить почти невозможно.

Вижу параллель с программированием: Claude Code не заменяет сеньоров, но справляется с рутиной, которую раньше скидывали на джунов. В математике, похоже, начинается то же самое — ИИ научился собирать низко висящие плоды.

Вопрос: что будет, когда 68% ошибок — это не «проверим руками», а «упс, опубликовали неверное доказательство в Nature»?


Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.

Автор: ScriptShaper

Источник

Rambler's Top100