OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям

Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта ^[1] в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.

Компания утверждает, что предыдущие тесты не соответствовали требованиям: они не отражали реального взаимодействия врача и пациента, не учитывали мнение медицинских экспертов и не были достаточно подробными, чтобы оценить прогресс в новых моделях. Чтобы исправить это, OpenAI сотрудничала с 262 врачами из 60 стран. Вместе они создали 5000 реалистичных медицинских сценариев по 26 специальностям и на 49 языках.

HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения. Каждое действие ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота. В общей сложности система применяет 48 000 обоснованных с медицинской точки зрения ^[2] критериев оценки.

Подсчёт баллов выполняет GPT-4.1 ^[3]. Чтобы проверить, насколько это надёжно, OpenAI сравнил оценки модели с оценками врачей-людей. Результаты показали, что суждения GPT-4.1 соответствуют оценкам людей примерно на том же уровне согласованности, который наблюдается между разными врачами.

OpenAI утверждает, что его последние модели — GPT-4.1 и o3 — превзошли ответы врачей в тесте HealthBench. В ходе ранних тестов, проведённых в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без дополнительного участия или доработки.

Во всех пяти областях оценки GPT-4.1 и o3 соответствуют ответам врачей или превосходят их.

В OpenAI отмечают, что у этого сравнения есть важные ограничения. Врачи обычно не пишут ответы на медицинские вопросы в стиле чата, поэтому этот тест не отражает, как на самом деле работает клиническая помощь. Вместо этого он проверяет, насколько хорошо языковые модели справляются с очень специфическим видом коммуникации, который может быть более эффективным для ИИ, чем для врача.

По необработанным данным, модель o3 достигла 0,60 баллов в тесте, что почти в два раза больше, чем 0,32 балла, которые GPT-4o набрал в августе 2024 года. Лишь несколько конкурирующих моделей приблизились к этому показателю: Grok 3 от xAI набрал 0,54 балла, а Gemini 2.5 от Google — 0,52.

Производительность модели ИИ в HealthBench варьируется в зависимости от медицинской темы.

В сфере здравоохранения один неправильный ответ может перевесить десятки правильных. HealthBench включает в себя стресс-тест для оценки наихудшего сценария: насколько полезен наименее полезный ответ, который даёт модель? OpenAI заявляет, что его последние модели демонстрируют значительные улучшения и в этой области, но признаёт, что ещё многое предстоит сделать.

Показатели ошибок в HealthBench показывают, что новые модели, особенно GPT-4.1, сократили количество ошибок в худшем случае по медицинским темам.

Эффективность — ещё один важный аспект. OpenAI утверждает, что компактная модель GPT-4.1 nano в 25 раз экономичнее, чем более ранняя модель GPT-4o, выпущенная в августе 2024 года, и при этом даёт лучшие результаты. Это может сделать её более доступной в условиях ограниченных ресурсов.

Для поддержки дальнейшего тестирования OpenAI выпустила два дополнительных набора данных: HealthBench Consensus и HealthBench Hard. Набор «Consensus» включает только тщательно проверенные критерии, а набор «Hard» содержит 1000 особенно сложных случаев, в которых большинство моделей всё равно терпят неудачу.

Все тестовые данные и методы оценки доступны на GitHub ^[4]. OpenAI также опубликовала подробную статью ^[5] и призывает исследователей опираться на этот эталонный тест. А протестировать все популярные модели без ограничений можно на BotHub ^[6]— для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник ^[8]

Автор: mefdayy

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15197

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] зрения: http://www.braintools.ru/article/6238

[3] GPT-4.1: https://the-decoder.com/openai-launches-gpt-4-1-new-model-family-to-improve-agents-long-contexts-and-coding/

[4] доступны на GitHub: https://github.com/openai/simple-evals

[5] подробную статью: https://cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf

[6] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=OPENAI_SAYS_ITS_LATEST_MODELS_OUTPERFORM_DOCTORS_IN_MEDICAL_BENCHMARK

[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[8] Источник: https://the-decoder.com/openai-says-its-latest-models-outperform-doctors-in-medical-benchmark/

[9] Источник: https://habr.com/ru/companies/bothub/news/909468/?utm_source=habrahabr&utm_medium=rss&utm_campaign=909468

Нажмите здесь для печати.