- BrainTools - https://www.braintools.ru -
Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта [1] в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.

Компания утверждает, что предыдущие тесты не соответствовали требованиям: они не отражали реального взаимодействия врача и пациента, не учитывали мнение медицинских экспертов и не были достаточно подробными, чтобы оценить прогресс в новых моделях. Чтобы исправить это, OpenAI сотрудничала с 262 врачами из 60 стран. Вместе они создали 5000 реалистичных медицинских сценариев по 26 специальностям и на 49 языках.
HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения. Каждое действие ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота. В общей сложности система применяет 48 000 обоснованных с медицинской точки зрения [2] критериев оценки.
Подсчёт баллов выполняет GPT-4.1 [3]. Чтобы проверить, насколько это надёжно, OpenAI сравнил оценки модели с оценками врачей-людей. Результаты показали, что суждения GPT-4.1 соответствуют оценкам людей примерно на том же уровне согласованности, который наблюдается между разными врачами.
OpenAI утверждает, что его последние модели — GPT-4.1 и o3 — превзошли ответы врачей в тесте HealthBench. В ходе ранних тестов, проведённых в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без дополнительного участия или доработки.
В OpenAI отмечают, что у этого сравнения есть важные ограничения. Врачи обычно не пишут ответы на медицинские вопросы в стиле чата, поэтому этот тест не отражает, как на самом деле работает клиническая помощь. Вместо этого он проверяет, насколько хорошо языковые модели справляются с очень специфическим видом коммуникации, который может быть более эффективным для ИИ, чем для врача.
По необработанным данным, модель o3 достигла 0,60 баллов в тесте, что почти в два раза больше, чем 0,32 балла, которые GPT-4o набрал в августе 2024 года. Лишь несколько конкурирующих моделей приблизились к этому показателю: Grok 3 от xAI набрал 0,54 балла, а Gemini 2.5 от Google — 0,52.
В сфере здравоохранения один неправильный ответ может перевесить десятки правильных. HealthBench включает в себя стресс-тест для оценки наихудшего сценария: насколько полезен наименее полезный ответ, который даёт модель? OpenAI заявляет, что его последние модели демонстрируют значительные улучшения и в этой области, но признаёт, что ещё многое предстоит сделать.
Эффективность — ещё один важный аспект. OpenAI утверждает, что компактная модель GPT-4.1 nano в 25 раз экономичнее, чем более ранняя модель GPT-4o, выпущенная в августе 2024 года, и при этом даёт лучшие результаты. Это может сделать её более доступной в условиях ограниченных ресурсов.
Для поддержки дальнейшего тестирования OpenAI выпустила два дополнительных набора данных: HealthBench Consensus и HealthBench Hard. Набор «Consensus» включает только тщательно проверенные критерии, а набор «Hard» содержит 1000 особенно сложных случаев, в которых большинство моделей всё равно терпят неудачу.
Все тестовые данные и методы оценки доступны на GitHub [4]. OpenAI также опубликовала подробную статью [5] и призывает исследователей опираться на этот эталонный тест. А протестировать все популярные модели без ограничений можно на BotHub [6]— для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник [8]
Автор: mefdayy
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/15197
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] зрения: http://www.braintools.ru/article/6238
[3] GPT-4.1: https://the-decoder.com/openai-launches-gpt-4-1-new-model-family-to-improve-agents-long-contexts-and-coding/
[4] доступны на GitHub: https://github.com/openai/simple-evals
[5] подробную статью: https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
[6] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=OPENAI_SAYS_ITS_LATEST_MODELS_OUTPERFORM_DOCTORS_IN_MEDICAL_BENCHMARK
[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[8] Источник: https://the-decoder.com/openai-says-its-latest-models-outperform-doctors-in-medical-benchmark/
[9] Источник: https://habr.com/ru/companies/bothub/news/909468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=909468
Нажмите здесь для печати.