- BrainTools - https://www.braintools.ru -

Новая регистрационная работа под названием “CritPt [1]” собрана более чем 50 физиками из 30+ институтов, чтобы проверить, способны ли современные модели ИИ решать задачи, сопоставимые с работой аспиранта‑исследователя.
Benchmark включает 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики, причём все задачи – не из учебников и не публиковавшиеся ранее.
Результаты оказались жёстким вызовом для лидеров индустрии. В независимой оценке «Χ» (Artificial Analysis) модель Gemini 3 Pro Preview достигла лишь 9,1 % точности, а GPT‑5.1 (high) – около 4,9 %, при том что задачи специально создавались для профессиональных учёных. Даже лучшие модели справляются менее чем с 10 % таких задач.

Особенно тревожно, что при вводе строгой метрики «Consistently Solved Rate» (правильно 4‑5 раз из 5 попыток) производительность резко падает – модели почти сразу теряют свою работоспособность, открывая слабость не только в точности, но и в стабильности.

Авторы подчёркивают, что современные большие языковые модели пока лишены необходимой строгости, новаторства и точности, чтобы выступать автономными исследователями. Реалистичнее звучит другая роль – не ИИ‑учёный, а ассистент по исследованиям, который помогает с отдельными задачами, но не заменяет человека.

В статье отмечается, что такие модели и сейчас показывают прогресс в узко сформулированных подзадачах, но при их применении в реальных научных проектах они часто дают убедительные, но неверные ответы, которые могут ввести в заблуждение и потребовать тщательной проверки экспертов.
Для индустрии ИИ это сигнал. Пока обещания о полностью автономных исследовательских системах остаются преждевременными. Похоже, что ближайшее будущее – за системами, которые работают вместе с человеком, а не вместо него.
А что думаете вы? Будем ждать новостей!
Делегируйте часть рутинных задач вместе с BotHub! [2] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22305
URLs in this post:
[1] CritPt: https://arxiv.org/pdf/2509.26574
[2] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=THE%20DREAM%20OF%20AI%20SCIENTISTS%20IS%20SHATTERED:%20GEMINI%203%20PRO%20AND%20GPT-5%20FAILED%20ASTROPHYSICS%20TASKS
[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[4] Источник: https://habr.com/ru/companies/bothub/news/969536/?utm_source=habrahabr&utm_medium=rss&utm_campaign=969536
Нажмите здесь для печати.