Автор: Ирен Йе
7 апреля 2026 г. | Модели искусственного интеллекта (ИИ) помогают врачам в решении ряда клинических задач и обладают большим потенциалом в диагностике пациентов и разработке персонализированных вариантов лечения. Однако группа исследователей из Массачусетского технологического института в пресс-релизе предупреждает, что системы ИИ в их нынешнем виде могут склонить врачей к ошибочным решениям из-за чрезмерной самоуверенности.
Крупные языковые модели (КГМ) склонны проявлять неуместную чрезмерную самоуверенность в задачах клинического мышления, демонстрируя негибкость в рассуждениях и склонность к галлюцинациям при столкновении с ситуациями, отклоняющимися от моделей обучения (BMJ Health & Care Informatics, DOI: 10.1136/bmjhci-2025-101877). Они также проявляют подобострастное поведение, например, хвалят или льстят.
По мнению исследователей, необходим «скромный» ИИ. Они разработали концепцию, названную Balanced, Open-minded, Diagnostic, Humble, and Inquisitive (BODHI), которая более прозрачна в отношении неопределенности и побуждает пользователей собирать дополнительную информацию, если они не уверены в своем диагнозе.
Шесть интегрированных шагов и цепочка логических рассуждений
Структура BODHI работает в шесть интегрированных этапов. Во-первых, оценка клинической сложности анализирует запрос на предмет диагностической неоднозначности, срочности и полноты данных. Во-вторых, предварительная оценка достоверности оценивает эпистемическое состояние модели на основе обучения и специфичности запроса. В-третьих, модуль «Любопытство» выявляет пробелы в информации и задает уточняющие вопросы, а модуль «Скромность» оценивает пределы достоверности и триггеры отсрочки. В исследовании упоминалось, что ранее команда представила любопытство и скромность как важные эпистемические добродетели для ИИ в здравоохранении. Любопытство призвано уменьшить неопределенность посредством целенаправленного исследования, а скромность признает ограничения и опирается на экспертное мнение человека.
В-четвертых, матрица активации добродетели сопоставляет объединенные результаты с одной из четырех эпистемических позиций (Действовать и контролировать, Наблюдение и поиск альтернатив, Уточнение и анализ, Эскалация и переформулирование). В-пятых, в соответствии с выбранной позицией генерируются адаптивные системные ответы. И наконец, структура использует клиническую обратную связь для уточнения пороговых значений и улучшения производительности с течением времени.
В системе BODHI также используется двухэтапный протокол анализа цепочки мыслей, который разделяет внутренние рассуждения и внешнюю коммуникацию. На первом этапе анализируется запрос по семи параметрам: классификация типа задачи (экстренная, техническая, гибридная или разговорная), определение целевой аудитории (пациент, медицинский работник или неясно), основная гипотеза с обоснованием, ключевые неопределенности, влияющие на уверенность, уточняющие вопросы (1–2 необходимы для неэкстренных случаев), тревожные сигналы, инициирующие эскалацию, и безопасные рекомендации, соответствующие уровню неопределенности.
На втором этапе генерируется окончательный ответ для врача, используя анализ первого этапа и применяя эпистемические ограничения. Затем система корректирует свое поведение в зависимости от контекста: режим диалога (по умолчанию) применяет полные эпистемические ограничения к взаимодействию с пациентом, режим экстренной помощи ставит безопасность выше полноты, технический режим уменьшает сдержанность (скромность) при выполнении административных задач, а гибридный режим уравновешивает клиническое мышление с технической точностью. Сквозные ограничения обеспечивают соблюдение ключевых практик: использование конкретных чисел и временных рамок, когда это возможно, преобразование условных утверждений в прямые вопросы для сбора дополнительной информации и представление альтернативных вариантов при низкой уверенности.
«Это как иметь второго пилота, который скажет вам, что нужно взглянуть на ситуацию свежим взглядом, чтобы лучше понять этого сложного пациента», — сказал Лео Энтони Сели, старший научный сотрудник Института медицинской инженерии и науки Массачусетского технологического института, врач Медицинского центра Бет Израэль Диконесс и доцент Гарвардской медицинской школы, в пресс-релизе.
Значительные улучшения в поведении.
Команда оценила BODHI на HealthBench Hard, бенчмарке из 200 сложных клинических сценариев, требующих диагностического мышления, планирования лечения и принятия решений по сортировке пациентов. Были оценены две языковые модели: GPT-4.1-mini и GPT-4o-mini.
Результаты показали значительные улучшения в обеих моделях. Для GPT-4.1-mini показатель улучшился с 2,5% до 19,1%, при этом уровень поиска контекста (любопытства) вырос с 7,8% до 97,3%, а поведение, направленное на смягчение позиции, увеличилось с 1,7% до 21,9%. Для GPT-4o-mini улучшение составило с 0% до 2,2%, при этом уровень поиска контекста вырос с 0% до 73,5%. В целом, BODHI добилась значительных улучшений в отношении любопытства и клинического качества. Эти улучшения были достигнуты за счет подсказок в виде цепочки мыслей без тонкой настройки модели или архитектурных изменений.
Модель GPT-4.1-mini продемонстрировала большее общее улучшение, что предполагает, что возможности модели влияют на полезность применения эпистемических ограничений. Модель GPT-4o-mini показала сопоставимые показатели поиска контекста, но более низкие общие баллы, что, возможно, отражает различия в базовом уровне рассуждений или надежности выполнения инструкций. Тем не менее, обе модели достигли значительного улучшения основных эпистемических показателей, что указывает на эффективность двухэтапного протокола для всех вариантов модели.
Что означает смирение в клинической практике
Традиционные методы, такие как количественная оценка неопределенности, позволяют оценить уверенность, но не влияют на поведение или коммуникацию. Методы оценки согласованности выборки или вероятности на уровне токена позволяют различать правильные и неправильные результаты, но часто плохо откалиброваны и чрезмерны в своих оценках. Тонкая настройка этих подходов требует изменения самой модели и может плохо поддаваться обобщению в различных клинических контекстах. Концептуальные модели эпистемической скромности подчеркивают эту проблему, не предлагая практических решений. В отличие от них, BODHI работает на уровне подсказок, не требует изменений в модели и демонстрирует поведенческие сдвиги с улучшением как любознательности, так и скромности.
Однако исследователи предупреждают, что снижение оценок качества коммуникации следует интерпретировать с осторожностью. В условиях высокого риска в клинической практике уместные, скромные, основанные на вопросах ответы считаются более безопасными, чем уверенные, но потенциально неверные утверждения. Более низкие оценки качества коммуникации могут отражать ограничения критериев оценки, а не реальное снижение клинической эффективности. В будущих системах оценки следует поощрять уместное выражение неуверенности и наказывать за чрезмерную самоуверенность, чтобы соответствовать качествам, которыми должен обладать клинический ИИ.
К ограничениям данного исследования относятся использование одного эталонного показателя, оценка двух моделей от одного поставщика и отсутствие проверки с участием врача. Двухэтапный протокол также увеличил вычислительные затраты и задержку, что может ограничить возможности применения в режиме реального времени. Эффективность предлагаемой системы может варьироваться в зависимости от клинической сферы, групп пациентов и условий учреждения. Хотя протокол, основанный на логической цепочке рассуждений, повышает прозрачность, он может не в полной мере отражать фактические вычисления модели, что является ограничением подходов к рационализации задним числом. Команда рекомендует в будущих исследованиях протестировать BODHI в реальных клинических условиях с участием различных пациентов и оценить его влияние на результаты, такие как точность диагностики и безопасность пациентов.
Значительные улучшения демонстрируют, что BODHI может надежно ограничивать работу LLM в рамках эпистемических границ. Благодаря ему ИИ можно внедрять более безопасно, и он может выступать в качестве партнера по сотрудничеству, который знает, когда задавать вопросы и откладывать решение, вместо того чтобы маскировать неопределенность чрезмерной самоуверенностью. В настоящее время BODHI доступен в виде пакета Python с открытым исходным кодом.
Источник: www.bio-itworld.com






















