Image

ИИ в белом халате: как он учится ставить диагнозы в виртуальной клинике

65cd5a484d38601971c852dcb61ac4e7

В медицине клинический диагноз часто требует от врача нескольких действий: построения разумной гипотезы на основании симптомов пациента, проведения соответствующих тестов для подтверждения или исключения этой гипотезы, а также окончательного решения о том, когда остановить тестирование и сделать вывод о диагнозе. Большинство больших языковых моделей (LLM) демонстрируют хорошие результаты при диагностике по фиксированным случаям, однако им не хватает планирования, когда требуется выбрать и фокусироваться на важных диагностических тестах в несколько этапов. Эта задача требует активного сбора информации, типичного для управления агентами, обучаемыми с использованием методов обучения с подкреплением (RL), которые оптимизируют не только конечный диагноз, но и стратегию выбора действий.

Обзор метода: виртуальная среда DiagGym как модель мира и обучение DiagAgent с подкреплением
Обзор метода: виртуальная среда DiagGym как модель мира и обучение DiagAgent с подкреплением

Виртуальная клиника как модель мира

В новом исследовании авторы разрабатывают виртуальную клинику для клинической диагностики, где агенты выбирают, какие действия предпринять, и получают награду не только за правильный диагноз, но и за оптимизацию всей последовательности действий. Ключом к созданию этой среды является имитация реального поведения тестирования в различных клинических сценариях. По сути, это задача моделирования мира, где среда предсказывает, что обнаружит тот или иной тест для заданного пациента, учитывая предыдущие действия, позволяя замкнуть цикл между агентом и средой.

Авторы разрабатывают DiagGym, текстовую среду клинической диагностики, основанную на последовательности действий из электронных медицинских записей (MIMIC-IV), которая имитирует результаты диагностических тестов. Чтобы убедиться, что DiagGym не упрощает набор возможных результатов до нескольких шаблонов, они вычисляют различные распределительные метрики. DiagGym согласуется с реальными последовательностями в 96.91% случаев (оценка LLM) и 95% (по мнению врачей). Он показывает метрики, более близкие к реальным данным, чем универсальные LLM, а также быстрее их. Затем задача диагностики состоит в том, чтобы выбрать соответствующие тесты и прийти к правильному диагнозу быстрее и с меньшими затратами.

Как оценивают симулятор: качество по случаям и по распределениям результатов обследований
Как оценивают симулятор: качество по случаям и по распределениям результатов обследований

Агент, который учится на действиях

Внутри виртуального симулятора DiagGym авторы обучают DiagAgent, который на каждом этапе выбирает, какой тест заказать или когда завершить диагностику. Это мотивирует агента точно диагностировать, эффективно собирать релевантную информацию и завершать диагностику с минимальным количеством действий. Агента обучают с подкреплением (RL) для оптимизации всей последовательности действий в интерактивной среде. Таким образом, агент обучается стратегическому поведению для сбора информации при неопределённости, выходящему за рамки простого дообучения на реальных сценариях.

DiagAgent работает лучше в двух сценариях:

1) Одношаговая задача, где на каждом шаге он должен предложить следующий тест или сделать диагноз;

2) Полная задача, где он активно разыгрывает всю последовательность действий внутри среды.

В одношаговой задаче агент превосходит двух сильных агентных бэйзлайнов и 10 LLM: +9.34% в точности диагноза, +44.03% в рекомендациях диагностических тестов, включая GPT-4o и DeepSeek-v3, которые опережают другие LLM. В полной задаче агент опережает их на +15.12% по точности диагноза и +23.09% по F1.

Как меряют одношаговые рекомендации и итоговые диагнозы; сравнительные результаты DiagAgent и LLM
Как меряют одношаговые рекомендации и итоговые диагнозы; сравнительные результаты DiagAgent и LLM

Что видно по разбору случаев

На примере желтухи симулятор воспроизводит ключевые результаты (повышенный билирубин и сопутствующие симптомы). Это подтверждает, что модель мира не упрощает картину до шаблонов, а сохраняет разнообразие и контекст.

Сопоставление сгенерированных и истинных результатов обследований по одному кейсу
Сопоставление сгенерированных и истинных результатов обследований по одному кейсу

Показательный случай — аппендицит. Агент быстро сужает пространство гипотез, сначала заказывает общий анализ крови и обоснованно идёт на КТ брюшной полости; находки подтверждают диагноз. Траектория близка к референсной и экономит лишние шаги.

Многошаговый диалог DiagAgent и эталонная клиническая хронология
Многошаговый диалог DiagAgent и эталонная клиническая хронология

Но в одном из кейсов также показан провал: при разрыве внематочной беременности агент верно устанавливает диагноз, но не инициирует срочные лечебные действия, которые лежат вне текущего скоупа задач. Поэтому диагностическое рассуждение есть, а шагов нет.

Сбой: точная диагностика без выполнения неотложных процедур
Сбой: точная диагностика без выполнения неотложных процедур

Почему это работает

Во‑первых, сама виртуальная среда возвращает правдоподобные, вариативные результаты, поэтому агент учится на богатых сценариях, а не на одних и тех же шаблонах. Во‑вторых, цель обучения: оптимизируется не красивая формулировка ответа, а весь путь к нему. RL на траекториях стабильно превосходит чистое инструкционное дообучение и поднимает потолок качества для разных исходных семейств моделей.

Честно показаны и ограничения. Базы для обучения и проверки взяты вдумчиво, но RL проводился только на моделях до 14 миллиардов параметров: более крупные могут обеспечить дополнительный скачок производительности. Оценивалась только диагностика: расширение модели мира на лечение и прогноз может потребовать дополнительных доработок. Авторы приветствуют дополнительные методы оценки.

Таким образом ИИ приходит к роли мыслящего медицинского исследователя, который не просто отвечает на вопросы, а планирует, проверяет гипотезы и осваивает искусство клинического рассуждения — шаг к созданию действительно разумных медицинских помощников.

📜 Полная статья

💾 Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: ИИ, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых