OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям. HealthBench.. HealthBench. openai.. HealthBench. openai. Блог компании BotHub.. HealthBench. openai. Блог компании BotHub. здоровье.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение. ИИ.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение. ИИ. ии в медицине.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение. ИИ. ии в медицине. ии и машинное обучение.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение. ИИ. ии в медицине. ии и машинное обучение. искусственный интеллект.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение. ИИ. ии в медицине. ии и машинное обучение. искусственный интеллект. модели ии.. HealthBench. openai. Блог компании BotHub. здоровье. здравоохранение. ИИ. ии в медицине. ии и машинное обучение. искусственный интеллект. модели ии. чат-бот.

Компания OpenAI выпустила новый тест для проверки систем искусственного интеллекта в сфере здравоохранения. Он называется HealthBench и предназначен для оценки того, насколько хорошо языковые модели справляются с реалистичными медицинскими беседами. По словам OpenAI, её новейшие модели превосходят врачей в этом тесте.

OpenAI утверждает, что ее последние модели превосходят врачей по медицинским показателям - 1

Компания утверждает, что предыдущие тесты не соответствовали требованиям: они не отражали реального взаимодействия врача и пациента, не учитывали мнение медицинских экспертов и не были достаточно подробными, чтобы оценить прогресс в новых моделях. Чтобы исправить это, OpenAI сотрудничала с 262 врачами из 60 стран. Вместе они создали 5000 реалистичных медицинских сценариев по 26 специальностям и на 49 языках.

HealthBench охватывает семь областей медицины, от неотложной помощи до глобального здравоохранения. Каждое действие ИИ оценивается по пяти категориям: качество коммуникации, следование инструкциям, точность, понимание контекста и полнота. В общей сложности система применяет 48 000 обоснованных с медицинской точки зрения критериев оценки.

Подсчёт баллов выполняет GPT-4.1. Чтобы проверить, насколько это надёжно, OpenAI сравнил оценки модели с оценками врачей-людей. Результаты показали, что суждения GPT-4.1 соответствуют оценкам людей примерно на том же уровне согласованности, который наблюдается между разными врачами.

OpenAI утверждает, что его последние модели — GPT-4.1 и o3 — превзошли ответы врачей в тесте HealthBench. В ходе ранних тестов, проведённых в сентябре 2024 года, врачи могли улучшить результаты более старых моделей, редактируя их, в то время как ответы врачей без посторонней помощи получили самые низкие оценки. Но к апрелю 2025 года результаты изменились: GPT-4.1 и o3 превзошли врачей даже без дополнительного участия или доработки.

Во всех пяти областях оценки GPT-4.1 и o3 соответствуют ответам врачей или превосходят их.

Во всех пяти областях оценки GPT-4.1 и o3 соответствуют ответам врачей или превосходят их.

В OpenAI отмечают, что у этого сравнения есть важные ограничения. Врачи обычно не пишут ответы на медицинские вопросы в стиле чата, поэтому этот тест не отражает, как на самом деле работает клиническая помощь. Вместо этого он проверяет, насколько хорошо языковые модели справляются с очень специфическим видом коммуникации, который может быть более эффективным для ИИ, чем для врача.

По необработанным данным, модель o3 достигла 0,60 баллов в тесте, что почти в два раза больше, чем 0,32 балла, которые GPT-4o набрал в августе 2024 года. Лишь несколько конкурирующих моделей приблизились к этому показателю: Grok 3 от xAI набрал 0,54 балла, а Gemini 2.5 от Google — 0,52.

Производительность модели ИИ в HealthBench варьируется в зависимости от медицинской темы. 
Производительность модели ИИ в HealthBench варьируется в зависимости от медицинской темы. 

В сфере здравоохранения один неправильный ответ может перевесить десятки правильных. HealthBench включает в себя стресс-тест для оценки наихудшего сценария: насколько полезен наименее полезный ответ, который даёт модель? OpenAI заявляет, что его последние модели демонстрируют значительные улучшения и в этой области, но признаёт, что ещё многое предстоит сделать.

Показатели ошибок в HealthBench показывают, что новые модели, особенно GPT-4.1, сократили количество ошибок в худшем случае по медицинским темам.

Показатели ошибок в HealthBench показывают, что новые модели, особенно GPT-4.1, сократили количество ошибок в худшем случае по медицинским темам.

Эффективность — ещё один важный аспект. OpenAI утверждает, что компактная модель GPT-4.1 nano в 25 раз экономичнее, чем более ранняя модель GPT-4o, выпущенная в августе 2024 года, и при этом даёт лучшие результаты. Это может сделать её более доступной в условиях ограниченных ресурсов.

Для поддержки дальнейшего тестирования OpenAI выпустила два дополнительных набора данных: HealthBench Consensus и HealthBench Hard. Набор «Consensus» включает только тщательно проверенные критерии, а набор «Hard» содержит 1000 особенно сложных случаев, в которых большинство моделей всё равно терпят неудачу.

Все тестовые данные и методы оценки доступны на GitHub. OpenAI также опубликовала подробную статью и призывает исследователей опираться на этот эталонный тест. А протестировать все популярные модели без ограничений можно на BotHub — для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Автор: mefdayy

Источник

Rambler's Top100