ideipro logotyp

«Скромный» ИИ показывает, когда он не уверен в диагнозе.

Автор: Ирен Йе

7 апреля 2026 г. | Модели искусственного интеллекта (ИИ) помогают врачам в решении ряда клинических задач и обладают большим потенциалом в диагностике пациентов и разработке персонализированных вариантов лечения. Однако группа исследователей из Массачусетского технологического института в пресс-релизе предупреждает, что системы ИИ в их нынешнем виде могут склонить врачей к ошибочным решениям из-за чрезмерной самоуверенности.

Крупные языковые модели (КГМ) склонны проявлять неуместную чрезмерную самоуверенность в задачах клинического мышления, демонстрируя негибкость в рассуждениях и склонность к галлюцинациям при столкновении с ситуациями, отклоняющимися от моделей обучения (BMJ Health & Care Informatics, DOI: 10.1136/bmjhci-2025-101877). Они также проявляют подобострастное поведение, например, хвалят или льстят.

По мнению исследователей, необходим «скромный» ИИ. Они разработали концепцию, названную Balanced, Open-minded, Diagnostic, Humble, and Inquisitive (BODHI), которая более прозрачна в отношении неопределенности и побуждает пользователей собирать дополнительную информацию, если они не уверены в своем диагнозе.

Шесть интегрированных шагов и цепочка логических рассуждений

Структура BODHI работает в шесть интегрированных этапов. Во-первых, оценка клинической сложности анализирует запрос на предмет диагностической неоднозначности, срочности и полноты данных. Во-вторых, предварительная оценка достоверности оценивает эпистемическое состояние модели на основе обучения и специфичности запроса. В-третьих, модуль «Любопытство» выявляет пробелы в информации и задает уточняющие вопросы, а модуль «Скромность» оценивает пределы достоверности и триггеры отсрочки. В исследовании упоминалось, что ранее команда представила любопытство и скромность как важные эпистемические добродетели для ИИ в здравоохранении. Любопытство призвано уменьшить неопределенность посредством целенаправленного исследования, а скромность признает ограничения и опирается на экспертное мнение человека.

В-четвертых, матрица активации добродетели сопоставляет объединенные результаты с одной из четырех эпистемических позиций (Действовать и контролировать, Наблюдение и поиск альтернатив, Уточнение и анализ, Эскалация и переформулирование). В-пятых, в соответствии с выбранной позицией генерируются адаптивные системные ответы. И наконец, структура использует клиническую обратную связь для уточнения пороговых значений и улучшения производительности с течением времени.

В системе BODHI также используется двухэтапный протокол анализа цепочки мыслей, который разделяет внутренние рассуждения и внешнюю коммуникацию. На первом этапе анализируется запрос по семи параметрам: классификация типа задачи (экстренная, техническая, гибридная или разговорная), определение целевой аудитории (пациент, медицинский работник или неясно), основная гипотеза с обоснованием, ключевые неопределенности, влияющие на уверенность, уточняющие вопросы (1–2 необходимы для неэкстренных случаев), тревожные сигналы, инициирующие эскалацию, и безопасные рекомендации, соответствующие уровню неопределенности.

На втором этапе генерируется окончательный ответ для врача, используя анализ первого этапа и применяя эпистемические ограничения. Затем система корректирует свое поведение в зависимости от контекста: режим диалога (по умолчанию) применяет полные эпистемические ограничения к взаимодействию с пациентом, режим экстренной помощи ставит безопасность выше полноты, технический режим уменьшает сдержанность (скромность) при выполнении административных задач, а гибридный режим уравновешивает клиническое мышление с технической точностью. Сквозные ограничения обеспечивают соблюдение ключевых практик: использование конкретных чисел и временных рамок, когда это возможно, преобразование условных утверждений в прямые вопросы для сбора дополнительной информации и представление альтернативных вариантов при низкой уверенности.

«Это как иметь второго пилота, который скажет вам, что нужно взглянуть на ситуацию свежим взглядом, чтобы лучше понять этого сложного пациента», — сказал Лео Энтони Сели, старший научный сотрудник Института медицинской инженерии и науки Массачусетского технологического института, врач Медицинского центра Бет Израэль Диконесс и доцент Гарвардской медицинской школы, в пресс-релизе.

Значительные улучшения в поведении.

Команда оценила BODHI на HealthBench Hard, бенчмарке из 200 сложных клинических сценариев, требующих диагностического мышления, планирования лечения и принятия решений по сортировке пациентов. Были оценены две языковые модели: GPT-4.1-mini и GPT-4o-mini.

Результаты показали значительные улучшения в обеих моделях. Для GPT-4.1-mini показатель улучшился с 2,5% до 19,1%, при этом уровень поиска контекста (любопытства) вырос с 7,8% до 97,3%, а поведение, направленное на смягчение позиции, увеличилось с 1,7% до 21,9%. Для GPT-4o-mini улучшение составило с 0% до 2,2%, при этом уровень поиска контекста вырос с 0% до 73,5%. В целом, BODHI добилась значительных улучшений в отношении любопытства и клинического качества. Эти улучшения были достигнуты за счет подсказок в виде цепочки мыслей без тонкой настройки модели или архитектурных изменений.

Модель GPT-4.1-mini продемонстрировала большее общее улучшение, что предполагает, что возможности модели влияют на полезность применения эпистемических ограничений. Модель GPT-4o-mini показала сопоставимые показатели поиска контекста, но более низкие общие баллы, что, возможно, отражает различия в базовом уровне рассуждений или надежности выполнения инструкций. Тем не менее, обе модели достигли значительного улучшения основных эпистемических показателей, что указывает на эффективность двухэтапного протокола для всех вариантов модели.

Что означает смирение в клинической практике

Традиционные методы, такие как количественная оценка неопределенности, позволяют оценить уверенность, но не влияют на поведение или коммуникацию. Методы оценки согласованности выборки или вероятности на уровне токена позволяют различать правильные и неправильные результаты, но часто плохо откалиброваны и чрезмерны в своих оценках. Тонкая настройка этих подходов требует изменения самой модели и может плохо поддаваться обобщению в различных клинических контекстах. Концептуальные модели эпистемической скромности подчеркивают эту проблему, не предлагая практических решений. В отличие от них, BODHI работает на уровне подсказок, не требует изменений в модели и демонстрирует поведенческие сдвиги с улучшением как любознательности, так и скромности.

Однако исследователи предупреждают, что снижение оценок качества коммуникации следует интерпретировать с осторожностью. В условиях высокого риска в клинической практике уместные, скромные, основанные на вопросах ответы считаются более безопасными, чем уверенные, но потенциально неверные утверждения. Более низкие оценки качества коммуникации могут отражать ограничения критериев оценки, а не реальное снижение клинической эффективности. В будущих системах оценки следует поощрять уместное выражение неуверенности и наказывать за чрезмерную самоуверенность, чтобы соответствовать качествам, которыми должен обладать клинический ИИ.

К ограничениям данного исследования относятся использование одного эталонного показателя, оценка двух моделей от одного поставщика и отсутствие проверки с участием врача. Двухэтапный протокол также увеличил вычислительные затраты и задержку, что может ограничить возможности применения в режиме реального времени. Эффективность предлагаемой системы может варьироваться в зависимости от клинической сферы, групп пациентов и условий учреждения. Хотя протокол, основанный на логической цепочке рассуждений, повышает прозрачность, он может не в полной мере отражать фактические вычисления модели, что является ограничением подходов к рационализации задним числом. Команда рекомендует в будущих исследованиях протестировать BODHI в реальных клинических условиях с участием различных пациентов и оценить его влияние на результаты, такие как точность диагностики и безопасность пациентов.

Значительные улучшения демонстрируют, что BODHI может надежно ограничивать работу LLM в рамках эпистемических границ. Благодаря ему ИИ можно внедрять более безопасно, и он может выступать в качестве партнера по сотрудничеству, который знает, когда задавать вопросы и откладывать решение, вместо того чтобы маскировать неопределенность чрезмерной самоуверенностью. В настоящее время BODHI доступен в виде пакета Python с открытым исходным кодом.

Источник: www.bio-itworld.com

✅ Найденные теги: «Скромный», Диагноз, ИИ, новости, Уверенность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

7 шагов к освоению генерации текста с использованием методов, расширяющих возможности поиска информации.
Белый гуманоидный робот с черными глазами и экраном в современном интерьере.
Mercy Health передает на аутсорсинг круглосуточный мониторинг критически важных систем.
Эта простая японская привычка в еде может помочь вам прожить дольше без диет.
Компания Stereotaxis запускает систему Synchrony для катетеризационных лабораторий.
ideipro logotyp
STAT+: Компания Insilico Medicine, разработчик лекарств на основе ИИ, и Lilly заключили сделку по коммерциализации на сумму до 2,75 миллиарда долларов.
Симулятор клинической среды для динамической оценки ИИ.
Похоже, коды объектов CBP просочились в сеть через онлайн-карточки для запоминания.
Image Not Found
7 шагов к освоению генерации текста с использованием методов, расширяющих возможности поиска информации.

7 шагов к освоению генерации текста с использованием методов, расширяющих возможности поиска информации.

По мере развития приложений, использующих языковые модели, они все чаще интегрировались с так называемыми RAG-архитектурами: изучите 7 ключевых шагов, считающихся необходимыми для успешной разработки таких приложений. Изображение предоставлено автором. # Введение Системы генерации с расширенным поиском информации…

Апр 8, 2026
Белый гуманоидный робот с черными глазами и экраном в современном интерьере.

Что теперь произойдёт, если ИИ станет первым аналитиком в вашей команде?

Как я адаптируюсь к изменениям в своей карьере в эпоху искусственного интеллекта, автоматизации и в условиях, когда всё происходит быстрее, чем ожидалось. Делиться Фотография Алекса Найтона – Unsplash Это может быть один из самых важных этапов нашей…

Апр 8, 2026
Mercy Health передает на аутсорсинг круглосуточный мониторинг критически важных систем.

Mercy Health передает на аутсорсинг круглосуточный мониторинг критически важных систем.

Католическая медицинская организация перешла на управляемый мониторинг своих систем клинической интеграции для улучшения реагирования на инциденты и сокращения времени простоя в работе своих служб. Сетевая инфраструктура Фото: Hero Images via Getty Images Mercy Health готовится к расширению…

Апр 8, 2026
Эта простая японская привычка в еде может помочь вам прожить дольше без диет.

Эта простая японская привычка в еде может помочь вам прожить дольше без диет.

Хара хати бу учит прекращать есть до того, как почувствуешь насыщение, помогая оставаться в гармонии со своим телом. Такой осознанный подход может улучшить здоровье, предотвратить переедание и создать более сбалансированные отношения с едой. (Фото: Shutterstock) В некоторых…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых