Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики. ai.. ai. gemini.. ai. gemini. Gemini 2.5 Pro.. ai. gemini. Gemini 2.5 Pro. gpt.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь. ИИ.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное. нейросети.. ai. gemini. Gemini 2.5 Pro. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное. нейросети. Физика.
Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 1

Новая регистрационная работа под названием “CritPt” собрана более чем 50 физиками из 30+ институтов, чтобы проверить, способны ли современные модели ИИ решать задачи, сопоставимые с работой аспиранта‑исследователя.

Benchmark включает 71 оригинальную задачу из 11 областей: квантовой физики, астрофизики, физики высоких энергий и биофизики, причём все задачи – не из учебников и не публиковавшиеся ранее.

Результаты оказались жёстким вызовом для лидеров индустрии. В независимой оценке «Χ» (Artificial Analysis) модель Gemini 3 Pro Preview достигла лишь 9,1 % точности, а GPT‑5.1 (high) – около 4,9 %, при том что задачи специально создавались для профессиональных учёных. Даже лучшие модели справляются менее чем с 10 % таких задач.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 2

Особенно тревожно, что при вводе строгой метрики «Consistently Solved Rate» (правильно 4‑5 раз из 5 попыток) производительность резко падает – модели почти сразу теряют свою работоспособность, открывая слабость не только в точности, но и в стабильности.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 3

Авторы подчёркивают, что современные большие языковые модели пока лишены необходимой строгости, новаторства и точности, чтобы выступать автономными исследователями. Реалистичнее звучит другая роль – не ИИ‑учёный, а ассистент по исследованиям, который помогает с отдельными задачами, но не заменяет человека.

Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики - 4

В статье отмечается, что такие модели и сейчас показывают прогресс в узко сформулированных подзадачах, но при их применении в реальных научных проектах они часто дают убедительные, но неверные ответы, которые могут ввести в заблуждение и потребовать тщательной проверки экспертов.

Для индустрии ИИ это сигнал. Пока обещания о полностью автономных исследовательских системах остаются преждевременными. Похоже, что ближайшее будущее – за системами, которые работают вместе с человеком, а не вместо него.

А что думаете вы? Будем ждать новостей!


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100