OpenAI сделала бенчмарк для проверки научного мышления ИИ

OpenAI запустила новый бенчмарк Frontier Science, предназначенный для комплексной оценки научного мышления ^[1] искусственного интеллекта ^[2]. Инструмент создан для того, чтобы проверять компетенции ИИ в таких областях, как физика, химия и биология, и выявлять способность моделей справляться с задачами различного уровня сложности. Для разработки стандарта компания привлекла 42 победителей международных олимпиад и 45 действующих ученых, что позволяет сделать тесты максимально приближенными к реальным академическим сценариям.

OpenAI сделала бенчмарк для проверки научного мышления ИИ - 2

Бенчмарк разделен на два основных направления. Первый трек, называемый «Олимпиада», включает сложные теоретические задачи, которые выходят за рамки стандартного школьного или университетского курса. Второй трек – «Исследования» – ориентирован на задачи уровня PhD, с которыми сталкиваются реальные научные сотрудники в лабораториях и исследовательских центрах. Такой подход позволяет оценивать не только способность моделей воспроизводить известные факты, но и применять знания в новых, сложных ситуациях.

OpenAI сделала бенчмарк для проверки научного мышления ИИ - 3

Ответы моделей проверяются с помощью верифицированного авто-грейдера на базе GPT-5. В тестировании уже приняли участие ведущие модели 2025 года. Результаты показали, что лидером стал GPT-5.2 в конфигурации x-high, успешно решившая 77% задач из трека «Олимпиада» и 25% задач трека «Исследования». Ближайший конкурент, Gemini 3 Pro, показал практически идентичный результат в теоретическом треке — 76%, но уступил в тестах исследовательского уровня. Эти результаты дают компаниям и исследователям возможность объективно сравнивать производительность различных моделей и понимать их реальные возможности в научной аналитике.

OpenAI сделала бенчмарк для проверки научного мышления ИИ - 4

OpenAI подчеркивает, что Frontier Science не просто очередной набор тестов, а инструмент, способный выявить сильные и слабые стороны моделей в применении научного мышления на практике. Бенчмарк может помочь при разработке новых ИИ-систем, создании обучающих курсов для моделей и при оценке их применимости для сложных научных исследований. В долгосрочной перспективе такие стандарты позволят ускорить автоматизацию научной работы, включая анализ данных, моделирование экспериментов и проверку гипотез, а также улучшат качество взаимодействия ИИ с профессиональными исследователями.

Делегируйте часть рутинных задач вместе с BotHub! ^[3] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[4] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[5]

Автор: cognitronn

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/23306

URLs in this post:

[1] мышления: http://www.braintools.ru/thinking

[2] интеллекта: http://www.braintools.ru/article/7605

[3] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DEEPSEEK-OCR%20+%20LLAMA4%20+%20RAG%20=%20REVOLUTION%20IN%20THE%20WORLD%20OF%20AGENT-BASED%20OCR

[4] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[5] Источник: https://openai.com/index/frontierscience/

[6] Источник: https://habr.com/ru/companies/bothub/news/977688/?utm_source=habrahabr&utm_medium=rss&utm_campaign=977688

Нажмите здесь для печати.