ideipro logotyp

«Скромный» ИИ показывает, когда он не уверен в диагнозе.

Автор: Ирен Йе

7 апреля 2026 г. | Модели искусственного интеллекта (ИИ) помогают врачам в решении ряда клинических задач и обладают большим потенциалом в диагностике пациентов и разработке персонализированных вариантов лечения. Однако группа исследователей из Массачусетского технологического института в пресс-релизе предупреждает, что системы ИИ в их нынешнем виде могут склонить врачей к ошибочным решениям из-за чрезмерной самоуверенности.

Крупные языковые модели (КГМ) склонны проявлять неуместную чрезмерную самоуверенность в задачах клинического мышления, демонстрируя негибкость в рассуждениях и склонность к галлюцинациям при столкновении с ситуациями, отклоняющимися от моделей обучения (BMJ Health & Care Informatics, DOI: 10.1136/bmjhci-2025-101877). Они также проявляют подобострастное поведение, например, хвалят или льстят.

По мнению исследователей, необходим «скромный» ИИ. Они разработали концепцию, названную Balanced, Open-minded, Diagnostic, Humble, and Inquisitive (BODHI), которая более прозрачна в отношении неопределенности и побуждает пользователей собирать дополнительную информацию, если они не уверены в своем диагнозе.

Шесть интегрированных шагов и цепочка логических рассуждений

Структура BODHI работает в шесть интегрированных этапов. Во-первых, оценка клинической сложности анализирует запрос на предмет диагностической неоднозначности, срочности и полноты данных. Во-вторых, предварительная оценка достоверности оценивает эпистемическое состояние модели на основе обучения и специфичности запроса. В-третьих, модуль «Любопытство» выявляет пробелы в информации и задает уточняющие вопросы, а модуль «Скромность» оценивает пределы достоверности и триггеры отсрочки. В исследовании упоминалось, что ранее команда представила любопытство и скромность как важные эпистемические добродетели для ИИ в здравоохранении. Любопытство призвано уменьшить неопределенность посредством целенаправленного исследования, а скромность признает ограничения и опирается на экспертное мнение человека.

В-четвертых, матрица активации добродетели сопоставляет объединенные результаты с одной из четырех эпистемических позиций (Действовать и контролировать, Наблюдение и поиск альтернатив, Уточнение и анализ, Эскалация и переформулирование). В-пятых, в соответствии с выбранной позицией генерируются адаптивные системные ответы. И наконец, структура использует клиническую обратную связь для уточнения пороговых значений и улучшения производительности с течением времени.

В системе BODHI также используется двухэтапный протокол анализа цепочки мыслей, который разделяет внутренние рассуждения и внешнюю коммуникацию. На первом этапе анализируется запрос по семи параметрам: классификация типа задачи (экстренная, техническая, гибридная или разговорная), определение целевой аудитории (пациент, медицинский работник или неясно), основная гипотеза с обоснованием, ключевые неопределенности, влияющие на уверенность, уточняющие вопросы (1–2 необходимы для неэкстренных случаев), тревожные сигналы, инициирующие эскалацию, и безопасные рекомендации, соответствующие уровню неопределенности.

На втором этапе генерируется окончательный ответ для врача, используя анализ первого этапа и применяя эпистемические ограничения. Затем система корректирует свое поведение в зависимости от контекста: режим диалога (по умолчанию) применяет полные эпистемические ограничения к взаимодействию с пациентом, режим экстренной помощи ставит безопасность выше полноты, технический режим уменьшает сдержанность (скромность) при выполнении административных задач, а гибридный режим уравновешивает клиническое мышление с технической точностью. Сквозные ограничения обеспечивают соблюдение ключевых практик: использование конкретных чисел и временных рамок, когда это возможно, преобразование условных утверждений в прямые вопросы для сбора дополнительной информации и представление альтернативных вариантов при низкой уверенности.

«Это как иметь второго пилота, который скажет вам, что нужно взглянуть на ситуацию свежим взглядом, чтобы лучше понять этого сложного пациента», — сказал Лео Энтони Сели, старший научный сотрудник Института медицинской инженерии и науки Массачусетского технологического института, врач Медицинского центра Бет Израэль Диконесс и доцент Гарвардской медицинской школы, в пресс-релизе.

Значительные улучшения в поведении.

Команда оценила BODHI на HealthBench Hard, бенчмарке из 200 сложных клинических сценариев, требующих диагностического мышления, планирования лечения и принятия решений по сортировке пациентов. Были оценены две языковые модели: GPT-4.1-mini и GPT-4o-mini.

Результаты показали значительные улучшения в обеих моделях. Для GPT-4.1-mini показатель улучшился с 2,5% до 19,1%, при этом уровень поиска контекста (любопытства) вырос с 7,8% до 97,3%, а поведение, направленное на смягчение позиции, увеличилось с 1,7% до 21,9%. Для GPT-4o-mini улучшение составило с 0% до 2,2%, при этом уровень поиска контекста вырос с 0% до 73,5%. В целом, BODHI добилась значительных улучшений в отношении любопытства и клинического качества. Эти улучшения были достигнуты за счет подсказок в виде цепочки мыслей без тонкой настройки модели или архитектурных изменений.

Модель GPT-4.1-mini продемонстрировала большее общее улучшение, что предполагает, что возможности модели влияют на полезность применения эпистемических ограничений. Модель GPT-4o-mini показала сопоставимые показатели поиска контекста, но более низкие общие баллы, что, возможно, отражает различия в базовом уровне рассуждений или надежности выполнения инструкций. Тем не менее, обе модели достигли значительного улучшения основных эпистемических показателей, что указывает на эффективность двухэтапного протокола для всех вариантов модели.

Что означает смирение в клинической практике

Традиционные методы, такие как количественная оценка неопределенности, позволяют оценить уверенность, но не влияют на поведение или коммуникацию. Методы оценки согласованности выборки или вероятности на уровне токена позволяют различать правильные и неправильные результаты, но часто плохо откалиброваны и чрезмерны в своих оценках. Тонкая настройка этих подходов требует изменения самой модели и может плохо поддаваться обобщению в различных клинических контекстах. Концептуальные модели эпистемической скромности подчеркивают эту проблему, не предлагая практических решений. В отличие от них, BODHI работает на уровне подсказок, не требует изменений в модели и демонстрирует поведенческие сдвиги с улучшением как любознательности, так и скромности.

Однако исследователи предупреждают, что снижение оценок качества коммуникации следует интерпретировать с осторожностью. В условиях высокого риска в клинической практике уместные, скромные, основанные на вопросах ответы считаются более безопасными, чем уверенные, но потенциально неверные утверждения. Более низкие оценки качества коммуникации могут отражать ограничения критериев оценки, а не реальное снижение клинической эффективности. В будущих системах оценки следует поощрять уместное выражение неуверенности и наказывать за чрезмерную самоуверенность, чтобы соответствовать качествам, которыми должен обладать клинический ИИ.

К ограничениям данного исследования относятся использование одного эталонного показателя, оценка двух моделей от одного поставщика и отсутствие проверки с участием врача. Двухэтапный протокол также увеличил вычислительные затраты и задержку, что может ограничить возможности применения в режиме реального времени. Эффективность предлагаемой системы может варьироваться в зависимости от клинической сферы, групп пациентов и условий учреждения. Хотя протокол, основанный на логической цепочке рассуждений, повышает прозрачность, он может не в полной мере отражать фактические вычисления модели, что является ограничением подходов к рационализации задним числом. Команда рекомендует в будущих исследованиях протестировать BODHI в реальных клинических условиях с участием различных пациентов и оценить его влияние на результаты, такие как точность диагностики и безопасность пациентов.

Значительные улучшения демонстрируют, что BODHI может надежно ограничивать работу LLM в рамках эпистемических границ. Благодаря ему ИИ можно внедрять более безопасно, и он может выступать в качестве партнера по сотрудничеству, который знает, когда задавать вопросы и откладывать решение, вместо того чтобы маскировать неопределенность чрезмерной самоуверенностью. В настоящее время BODHI доступен в виде пакета Python с открытым исходным кодом.

Источник: www.bio-itworld.com

✅ Найденные теги: «Скромный», Диагноз, ИИ, новости, Уверенность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Ряд зеленых пластиковых канистр с ручками, крупный план. Экологичная тара для жидкости.
ideipro logotyp
Врач использует искусственный интеллект, держит стетоскоп; инфографика и чек-лист на планшете.
Диаграмма системы управления XR: контекст, взаимодействие, ввод, генерация ответа.
ideipro logotyp
Новая открытая модель искусственного интеллекта Trinity-Large-Thinking от Arcee — это редкая и мощная модель, разработанная в США, которую предприятия могут загрузить и настроить под свои нужды.
Человек в костюме, текст "how long can this go on?" на черно-белом фоне.
Исследователи разработали революционное носимое устройство, которое способно передавать физические ощущения настоящего поцелуя, позволяя партнёрам на расстоянии отправлять поцелуи друг другу через
Исследователи разработали революционное носимое устройство, которое способно передавать физические ощущения настоящего поцелуя, позволяя партнёрам на расстоянии отправлять поцелуи друг другу через
Image Not Found
Ряд зеленых пластиковых канистр с ручками, крупный план. Экологичная тара для жидкости.

Цены на топливо стремительно растут. Следующим может стать пластик.

Getty Images Поскольку война в Иране продолжает охватывать Ближний Восток, а Ормузский пролив остается закрытым, одним из наиболее заметных глобальных экономических последствий стали цены на ископаемое топливо. В частности, нельзя обойти вниманием новости о цене бензина, которая…

Апр 8, 2026
ideipro logotyp

Геометрический индикатор раннего предупреждения, основанный на стохастической структуре сепаратрисы в случайной двухсостоятельной модели экосистемы.

arXiv:2603.08861v2 Тип объявления: замена-кросс Аннотация: Подледное цветение фитопланктона в Арктике может развиваться быстро в условиях, когда традиционные сигналы раннего предупреждения, основанные на критическом замедлении, не срабатывают из-за сильного шума или ограниченного количества наблюдений. Мы анализируем вызванные шумом…

Апр 8, 2026
Врач использует искусственный интеллект, держит стетоскоп; инфографика и чек-лист на планшете.

Повышение способности моделей ИИ объяснять свои прогнозы.

Новый подход может помочь пользователям понять, можно ли доверять прогнозам модели в критически важных с точки зрения безопасности приложениях, таких как здравоохранение и автономное вождение. Новая методика преобразует любую модель компьютерного зрения в модель, способную объяснять свои…

Апр 8, 2026
Диаграмма системы управления XR: контекст, взаимодействие, ввод, генерация ответа.

Sensible Agent: платформа для ненавязчивого взаимодействия с проактивными агентами дополненной реальности.

Sensible Agent — это исследовательский прототип, позволяющий агентам дополненной реальности заблаговременно адаптировать предлагаемые ими действия и способы взаимодействия, используя контекст в реальном времени, включая направление взгляда, доступность рук и окружающий шум. Быстрые ссылки Бумага Делиться Скопировать ссылку…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых