ideipro logotyp

«Скромный» ИИ показывает, когда он не уверен в диагнозе.

Автор: Ирен Йе

7 апреля 2026 г. | Модели искусственного интеллекта (ИИ) помогают врачам в решении ряда клинических задач и обладают большим потенциалом в диагностике пациентов и разработке персонализированных вариантов лечения. Однако группа исследователей из Массачусетского технологического института в пресс-релизе предупреждает, что системы ИИ в их нынешнем виде могут склонить врачей к ошибочным решениям из-за чрезмерной самоуверенности.

Крупные языковые модели (КГМ) склонны проявлять неуместную чрезмерную самоуверенность в задачах клинического мышления, демонстрируя негибкость в рассуждениях и склонность к галлюцинациям при столкновении с ситуациями, отклоняющимися от моделей обучения (BMJ Health & Care Informatics, DOI: 10.1136/bmjhci-2025-101877). Они также проявляют подобострастное поведение, например, хвалят или льстят.

По мнению исследователей, необходим «скромный» ИИ. Они разработали концепцию, названную Balanced, Open-minded, Diagnostic, Humble, and Inquisitive (BODHI), которая более прозрачна в отношении неопределенности и побуждает пользователей собирать дополнительную информацию, если они не уверены в своем диагнозе.

Шесть интегрированных шагов и цепочка логических рассуждений

Структура BODHI работает в шесть интегрированных этапов. Во-первых, оценка клинической сложности анализирует запрос на предмет диагностической неоднозначности, срочности и полноты данных. Во-вторых, предварительная оценка достоверности оценивает эпистемическое состояние модели на основе обучения и специфичности запроса. В-третьих, модуль «Любопытство» выявляет пробелы в информации и задает уточняющие вопросы, а модуль «Скромность» оценивает пределы достоверности и триггеры отсрочки. В исследовании упоминалось, что ранее команда представила любопытство и скромность как важные эпистемические добродетели для ИИ в здравоохранении. Любопытство призвано уменьшить неопределенность посредством целенаправленного исследования, а скромность признает ограничения и опирается на экспертное мнение человека.

В-четвертых, матрица активации добродетели сопоставляет объединенные результаты с одной из четырех эпистемических позиций (Действовать и контролировать, Наблюдение и поиск альтернатив, Уточнение и анализ, Эскалация и переформулирование). В-пятых, в соответствии с выбранной позицией генерируются адаптивные системные ответы. И наконец, структура использует клиническую обратную связь для уточнения пороговых значений и улучшения производительности с течением времени.

В системе BODHI также используется двухэтапный протокол анализа цепочки мыслей, который разделяет внутренние рассуждения и внешнюю коммуникацию. На первом этапе анализируется запрос по семи параметрам: классификация типа задачи (экстренная, техническая, гибридная или разговорная), определение целевой аудитории (пациент, медицинский работник или неясно), основная гипотеза с обоснованием, ключевые неопределенности, влияющие на уверенность, уточняющие вопросы (1–2 необходимы для неэкстренных случаев), тревожные сигналы, инициирующие эскалацию, и безопасные рекомендации, соответствующие уровню неопределенности.

На втором этапе генерируется окончательный ответ для врача, используя анализ первого этапа и применяя эпистемические ограничения. Затем система корректирует свое поведение в зависимости от контекста: режим диалога (по умолчанию) применяет полные эпистемические ограничения к взаимодействию с пациентом, режим экстренной помощи ставит безопасность выше полноты, технический режим уменьшает сдержанность (скромность) при выполнении административных задач, а гибридный режим уравновешивает клиническое мышление с технической точностью. Сквозные ограничения обеспечивают соблюдение ключевых практик: использование конкретных чисел и временных рамок, когда это возможно, преобразование условных утверждений в прямые вопросы для сбора дополнительной информации и представление альтернативных вариантов при низкой уверенности.

«Это как иметь второго пилота, который скажет вам, что нужно взглянуть на ситуацию свежим взглядом, чтобы лучше понять этого сложного пациента», — сказал Лео Энтони Сели, старший научный сотрудник Института медицинской инженерии и науки Массачусетского технологического института, врач Медицинского центра Бет Израэль Диконесс и доцент Гарвардской медицинской школы, в пресс-релизе.

Значительные улучшения в поведении.

Команда оценила BODHI на HealthBench Hard, бенчмарке из 200 сложных клинических сценариев, требующих диагностического мышления, планирования лечения и принятия решений по сортировке пациентов. Были оценены две языковые модели: GPT-4.1-mini и GPT-4o-mini.

Результаты показали значительные улучшения в обеих моделях. Для GPT-4.1-mini показатель улучшился с 2,5% до 19,1%, при этом уровень поиска контекста (любопытства) вырос с 7,8% до 97,3%, а поведение, направленное на смягчение позиции, увеличилось с 1,7% до 21,9%. Для GPT-4o-mini улучшение составило с 0% до 2,2%, при этом уровень поиска контекста вырос с 0% до 73,5%. В целом, BODHI добилась значительных улучшений в отношении любопытства и клинического качества. Эти улучшения были достигнуты за счет подсказок в виде цепочки мыслей без тонкой настройки модели или архитектурных изменений.

Модель GPT-4.1-mini продемонстрировала большее общее улучшение, что предполагает, что возможности модели влияют на полезность применения эпистемических ограничений. Модель GPT-4o-mini показала сопоставимые показатели поиска контекста, но более низкие общие баллы, что, возможно, отражает различия в базовом уровне рассуждений или надежности выполнения инструкций. Тем не менее, обе модели достигли значительного улучшения основных эпистемических показателей, что указывает на эффективность двухэтапного протокола для всех вариантов модели.

Что означает смирение в клинической практике

Традиционные методы, такие как количественная оценка неопределенности, позволяют оценить уверенность, но не влияют на поведение или коммуникацию. Методы оценки согласованности выборки или вероятности на уровне токена позволяют различать правильные и неправильные результаты, но часто плохо откалиброваны и чрезмерны в своих оценках. Тонкая настройка этих подходов требует изменения самой модели и может плохо поддаваться обобщению в различных клинических контекстах. Концептуальные модели эпистемической скромности подчеркивают эту проблему, не предлагая практических решений. В отличие от них, BODHI работает на уровне подсказок, не требует изменений в модели и демонстрирует поведенческие сдвиги с улучшением как любознательности, так и скромности.

Однако исследователи предупреждают, что снижение оценок качества коммуникации следует интерпретировать с осторожностью. В условиях высокого риска в клинической практике уместные, скромные, основанные на вопросах ответы считаются более безопасными, чем уверенные, но потенциально неверные утверждения. Более низкие оценки качества коммуникации могут отражать ограничения критериев оценки, а не реальное снижение клинической эффективности. В будущих системах оценки следует поощрять уместное выражение неуверенности и наказывать за чрезмерную самоуверенность, чтобы соответствовать качествам, которыми должен обладать клинический ИИ.

К ограничениям данного исследования относятся использование одного эталонного показателя, оценка двух моделей от одного поставщика и отсутствие проверки с участием врача. Двухэтапный протокол также увеличил вычислительные затраты и задержку, что может ограничить возможности применения в режиме реального времени. Эффективность предлагаемой системы может варьироваться в зависимости от клинической сферы, групп пациентов и условий учреждения. Хотя протокол, основанный на логической цепочке рассуждений, повышает прозрачность, он может не в полной мере отражать фактические вычисления модели, что является ограничением подходов к рационализации задним числом. Команда рекомендует в будущих исследованиях протестировать BODHI в реальных клинических условиях с участием различных пациентов и оценить его влияние на результаты, такие как точность диагностики и безопасность пациентов.

Значительные улучшения демонстрируют, что BODHI может надежно ограничивать работу LLM в рамках эпистемических границ. Благодаря ему ИИ можно внедрять более безопасно, и он может выступать в качестве партнера по сотрудничеству, который знает, когда задавать вопросы и откладывать решение, вместо того чтобы маскировать неопределенность чрезмерной самоуверенностью. В настоящее время BODHI доступен в виде пакета Python с открытым исходным кодом.

Источник: www.bio-itworld.com

✅ Найденные теги: «Скромный», Диагноз, ИИ, новости, Уверенность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Женщина пишет на доске с заметками и диаграммами в офисе.
Недоступное изображение, значок графика.
Разборка смартфона: дисплей, батарея и компоненты на белом фоне с инструментами.
Силуэт человека с телефоном на фоне логотипа Atlassian.
ideipro logotyp
Логотип "X" на текстурированной бетонной стене, черно-белое изображение.
ideipro logotyp
Ночное фото освещенного дата-центра с высоты, видны здания и освещение.
ideipro logotyp
Image Not Found
Женщина пишет на доске с заметками и диаграммами в офисе.

STAT+: Ранние признаки болезни Альцгеймера часто остаются незамеченными. Эти исследователи хотят это изменить.

Ученые утверждают, что, используя искусственный интеллект для анализа изменений на снимках головного мозга, они могут предсказывать болезнь Альцгеймера с точностью почти 93 процента. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей…

Апр 8, 2026
Недоступное изображение, значок графика.

Вспомогательное применение дексаметазона с учетом генотипа при туберкулезном менингите у ВИЧ-отрицательных взрослых: рандомизированное контролируемое исследование III фазы.

Абстрактный Вспомогательные кортикостероиды, такие как дексаметазон, рекомендуются при лечении туберкулезного менингита, несмотря на умеренное и неоднородное улучшение выживаемости. Генотипы гидролазы лейкотриена А4 ( LTA4H ) ассоциируются с различными внутримозговыми воспалительными фенотипами и могут определять ответ на кортикостероиды…

Апр 8, 2026
Разборка смартфона: дисплей, батарея и компоненты на белом фоне с инструментами.

Разборка еще не вышедшего LG Rollable показывает, почему телефоны со сворачиваемым экраном пока не получили широкого распространения.

Компания LG чуть было не выпустила сворачиваемый смартфон в 2021 году, и вот как он выглядел внутри. Автор текста: JerryRigEverything Настройки текста : JerryRigEverything Текст рассказа Размер Маленький Стандартный Большой Ширина * Стандартный Широкий Ссылки Стандартный Оранжевый…

Апр 8, 2026
Силуэт человека с телефоном на фоне логотипа Atlassian.

Компания Atlassian запускает инструменты визуального искусственного интеллекта и сторонних агентов в Confluence.

Источник изображений: Rafael Henrique/SOPA Images/LightRocket / Getty Images В среду программный гигант Atlassian анонсировал новые инструменты и агентов на основе искусственного интеллекта, ориентированные на преобразование данных в визуальные ресурсы и приложения. Это включает в себя запуск инструмента…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых