Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики

Новая регистрационная работа под названием “CritPt ^[1]” собрана более чем 50 физиками из 30+ институтов, чтобы проверить, способны ли современные модели ИИ решать задачи, сопоставимые с работой аспиранта‑исследователя.

Benchmark включает 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики, причём все задачи – не из учебников и не публиковавшиеся ранее.

Результаты оказались жёстким вызовом для лидеров индустрии. В независимой оценке «Χ» (Artificial Analysis) модель Gemini 3 Pro Preview достигла лишь 9,1 % точности, а GPT‑5.1 (high) – около 4,9 %, при том что задачи специально создавались для профессиональных учёных. Даже лучшие модели справляются менее чем с 10 % таких задач.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 2

Особенно тревожно, что при вводе строгой метрики «Consistently Solved Rate» (правильно 4‑5 раз из 5 попыток) производительность резко падает – модели почти сразу теряют свою работоспособность, открывая слабость не только в точности, но и в стабильности.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 3

Авторы подчёркивают, что современные большие языковые модели пока лишены необходимой строгости, новаторства и точности, чтобы выступать автономными исследователями. Реалистичнее звучит другая роль – не ИИ‑учёный, а ассистент по исследованиям, который помогает с отдельными задачами, но не заменяет человека.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 4

В статье отмечается, что такие модели и сейчас показывают прогресс в узко сформулированных подзадачах, но при их применении в реальных научных проектах они часто дают убедительные, но неверные ответы, которые могут ввести в заблуждение и потребовать тщательной проверки экспертов.

Для индустрии ИИ это сигнал. Пока обещания о полностью автономных исследовательских системах остаются преждевременными. Похоже, что ближайшее будущее – за системами, которые работают вместе с человеком, а не вместо него.

А что думаете вы? Будем ждать новостей!

Делегируйте часть рутинных задач вместе с BotHub! ^[2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22305

URLs in this post:

[1] CritPt: https://arxiv.org/pdf/2509.26574

[2] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=THE%20DREAM%20OF%20AI%20SCIENTISTS%20IS%20SHATTERED:%20GEMINI%203%20PRO%20AND%20GPT-5%20FAILED%20ASTROPHYSICS%20TASKS

[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[4] Источник: https://habr.com/ru/companies/bothub/news/969536/?utm_source=habrahabr&utm_medium=rss&utm_campaign=969536

Нажмите здесь для печати.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики