- BrainTools - https://www.braintools.ru -

В медицине клинический диагноз часто требует от врача нескольких действий: построения разумной гипотезы на основании симптомов пациента, проведения соответствующих тестов для подтверждения или исключения этой гипотезы, а также окончательного решения о том, когда остановить тестирование и сделать вывод о диагнозе. Большинство больших языковых моделей (LLM) демонстрируют хорошие результаты при диагностике по фиксированным случаям, однако им не хватает планирования, когда требуется выбрать и фокусироваться на важных диагностических тестах в несколько этапов. Эта задача требует активного сбора информации, типичного для управления агентами, обучаемыми с использованием методов обучения [1] с подкреплением [2] (RL), которые оптимизируют не только конечный диагноз, но и стратегию выбора действий.
В новом исследовании авторы разрабатывают виртуальную клинику для клинической диагностики, где агенты выбирают, какие действия предпринять, и получают награду не только за правильный диагноз, но и за оптимизацию всей последовательности действий. Ключом к созданию этой среды является имитация реального поведения [3] тестирования в различных клинических сценариях. По сути, это задача моделирования мира, где среда предсказывает, что обнаружит тот или иной тест для заданного пациента, учитывая предыдущие действия, позволяя замкнуть цикл между агентом и средой.
Авторы разрабатывают DiagGym, текстовую среду клинической диагностики, основанную на последовательности действий из электронных медицинских записей (MIMIC-IV), которая имитирует результаты диаг��остических тестов. Чтобы убедиться, что DiagGym не упрощает набор возможных результатов до нескольких шаблонов, они вычисляют различные распределительные метрики. DiagGym согласуется с реальными последовательностями в 96.91% случаев (оценка LLM) и 95% (по мнению врачей). Он показывает метрики, более близкие к реальным данным, чем универсальные LLM, а также быстрее их. Затем задача диагностики состоит в том, чтобы выбрать соответствующие тесты и прийти к правильному диагнозу быстрее и с меньшими затратами.
Внутри виртуального симулятора DiagGym авторы обучают DiagAgent, который на каждом этапе выбирает, какой тест заказать или когда завершить диагностику. Это мотивирует агента точно диагностировать, эффективно собирать релевантную информацию и завершать диагностику с минимальным количеством действий. Агента обучают с подкреплением (RL) для оптимизации всей последовательности действий в интерактивной среде. Таким образом, агент обучается стратегическому поведению [4] для сбора информации при неопределённости, выходящему за рамки простого дообучения на реальных сценариях.
DiagAgent работает лучше в двух сценариях:
1) Одношаговая задача, г��е на каждом шаге он должен предложить следующий тест или сделать диагноз;
2) Полная задача, где он активно разыгрывает всю последовательность действий внутри среды.
В одношаговой задаче агент превосходит двух сильных агентных бэйзлайнов и 10 LLM: +9.34% в точности диагноза, +44.03% в рекомендациях диагностических тестов, включая GPT-4o и DeepSeek-v3, которые опережают другие LLM. В полной задаче агент опережает их на +15.12% по точности диагноза и +23.09% по F1.
На примере желтухи симулятор воспроизводит ключевые результаты (повышенный билирубин и сопутствующие симптомы). Это подтверждает, что модель мира не упрощает картину до шаблонов, а сохраняет разнообразие и контекст.
Показательный случай — аппендицит. Агент быстро сужает пространство гипотез, сначала заказывает общий анализ крови и обоснованно идёт на КТ брюшной полости; находки подтверждают диагноз. Траектория близка к референсной и экономит лишние шаги.
Но в одном из кейсов также показан провал: при разрыве внематочной беременности агент верно устанавливает диагноз, но не инициирует срочные лечебные действия, которые лежат вне текущего скоупа задач. Поэтому диагностическое рассуждение есть, а шагов нет.
Во‑первых, сама виртуальная среда возвращает правдоподобные, вариативные результаты, поэтому агент учится на богатых сценариях, а не на одних и тех же шаблонах. Во‑вторых, цель обучения: оптимизируется не красивая формулировка ответа, а весь путь к нему. RL на траекториях стабильно превосходит чистое инструкционное дообучение и поднимает потолок качества для разных исходных семейств моделей.
Честно показаны и ограничения. Базы для обучения и проверки взяты вдумчиво, но RL проводился только на моделях до 14 миллиардов параметров: более крупные могут обеспечить дополнительный скачок производительности. Оценивалась только диагностика: расширение модели мира на лечение и прогноз может потребовать дополнительных доработок. Авторы приветствуют дополнительные методы оценки.
Таким образом ИИ приходит к роли мыслящего медицинского исследователя, который не просто отвечает на вопросы, а планирует, проверяет гипотезы и осваивает искусство клинического рассуждения — шаг к созданию действительно разумных медицинских помощников.
📜 Полная статья [5]
💾 Код [6]
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [7] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21447
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] подкреплением: http://www.braintools.ru/article/5528
[3] поведения: http://www.braintools.ru/article/9372
[4] поведению: http://www.braintools.ru/article/5593
[5] 📜 Полная статья: https://arxiv.org/abs/2510.24654
[6] 💾 Код: https://github.com/MAGIC-AI4Med/DiagGym
[7] подписывайтесь на мой Telegram-канал: https://t.me/+MoGBQh-hX9wwMDU6
[8] Источник: https://habr.com/ru/articles/962694/?utm_source=habrahabr&utm_medium=rss&utm_campaign=962694
Нажмите здесь для печати.