Изучение возможности применения разговорного диагностического ИИ в реальных клинических условиях.
Мы представляем результаты первого в своем роде исследования, проведенного в партнерстве с медицинским центром Beth Israel Deaconess, направленного на перспективную оценку в реальных условиях AMIE, нашего разговорного медицинского ИИ для клинического мышления и диалога.
Быстрые ссылки
- Бумага
- Делиться
Системы искусственного интеллекта, способные к клиническому мышлению и диалогу, потенциально могут значительно расширить доступ к медицинской экспертизе и лечению, одновременно экономя время врачей, которое они могли бы уделять своим пациентам. Однако для воплощения этих инноваций в жизнь необходим подход, ориентированный на безопасность и основанный на доказательствах. В последние годы наша работа с Articulate Medical Intelligence Explorer (AMIE) изучала возможности разговорного медицинского ИИ, начиная с демонстрации его диагностических возможностей в смоделированных условиях при оказании помощи врачам в решении диагностических задач и взаимодействии с пациентами-актёрами. Однако, как подчеркивается в недавнем обзоре ИИ в клинической медицине, внедрение этих систем в клиническую практику требует оценки в реальных рабочих процессах.
В нашей новой работе «Проспективное клиническое исследование осуществимости разговорного диагностического ИИ в амбулаторной клинике первичной медицинской помощи» мы делимся результатами важного этапа в нашей стратегии доказательной медицины: проспективного одноцентрового исследования, проведенного в партнерстве с Медицинским центром Бет Израэль Диконесс (BIDMC). В этом предварительно зарегистрированном, одобренном этическим комитетом проспективном исследовании мы целенаправленно изучали, как AMIE может помочь собрать информацию от пациента до нового амбулаторного визита к врачу первичной медицинской помощи и понять, как врачи и пациенты воспринимают использование системы ИИ в процессе лечения. Это исследование представляет собой наш первый шаг к переходу от синтетических сценариев к тщательной оценке безопасности и практической осуществимости AMIE при взаимодействии с пациентами в реальной клинической среде.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Тестирование AMIE в реальных клинических условиях.
Внедрение систем искусственного интеллекта в клиническую практику требует оценки в реальных условиях оказания медицинской помощи со строгим контролем безопасности. В этом проспективном одногрупповом исследовании осуществимости система AMIE была использована для сбора анамнеза у пациентов перед их амбулаторными приемами в академическом медицинском центре.
Исследование проводилось в клинической среде с участием пациентов, записанных на прием по поводу новых, не требующих неотложной помощи, эпизодических жалоб, как лично, так и с использованием телемедицинских платформ. Пациентам предлагалось принять участие в исследовании во время записи на прием, где им предоставлялось достаточно времени для ознакомления с утвержденными этическим комитетом протоколами исследования, и их заверяли, что их решение об участии или отказе от участия никак не повлияет на качество их лечения.
Участники исследования взаимодействовали с системой AMIE через защищенную веб-ссылку до очной консультации. Эти текстовые чаты, управляемые ИИ, контролировались врачом с помощью видеозвонка в режиме реального времени с демонстрацией экрана. Контролирующий врач (на диаграмме ниже обозначенный как «супервайзер ИИ») был обучен быть готовым вмешаться в случае необходимости, основываясь на заранее определенном наборе структурированных критериев безопасности, что обеспечивало гарантию клинической безопасности и соблюдения протокола.
Перед тем как пациент посетил врача неотложной помощи, система сгенерировала стенограмму и краткое изложение, чтобы предоставить лечащему врачу исчерпывающий обзор взаимодействия до визита. Контроль является распространенным инструментом обеспечения безопасности в клинической практике. Например, врачи-стажеры имеют возможность общаться с пациентами под пристальным наблюдением врача и с согласия пациентов, чтобы получать обратную связь от врачей-наставников. Аналогичным образом, в этом исследовании система AMIE сгенерировала стенограмму и краткое изложение перед тем, как пациент посетил своего врача общей практики, и с согласия пациента это было предоставлено лечащему врачу. Краткое изложение включало обзор взаимодействия до визита для ознакомления врачом.
В данном исследовании пациенты впервые взаимодействовали с системой AMIE до посещения своего лечащего врача. Расшифровка и краткое изложение чата AMIE предоставлялись лечащему врачу до обращения в отделение неотложной помощи. Отдельная группа клинических экспертов оценивала качество чата AMIE, а также дифференциальные диагнозы и планы лечения, предложенные системой AMIE и лечащими врачами.
Уроки по вопросам безопасности, эффективности, доверия и опыта.
Оценка эффективности системы разговорного медицинского ИИ в реальных клинических условиях требует анализа различных критериев и учета мнений как пациентов, так и врачей. Мы оценили производительность системы по нескольким параметрам, включая ее безопасность и осуществимость в реальных условиях, возможности клинического мышления, а также восприятие взаимодействия как пациентами, так и врачами. Результаты показывают, что контролируемое развертывание AMIE для решения этой задачи не только осуществимо, но и безопасно с точки зрения диалога и хорошо воспринимается.
В нашем исследовании не требовалось никаких остановок для обеспечения безопасности со стороны управляющих ИИ, доверие пациентов к ИИ возросло после взаимодействия с AMIE, а AMIE и врачи общей практики были оценены группой клинических экспертов как сопоставимые по качеству общего плана лечения (Mx plan) и дифференциальной диагностики (DDx). Точность дифференциальной диагностики AMIE была высокой, в том числе и для подгруппы случаев, когда окончательный диагноз был подтвержден диагностическим тестом.
Участие
В исследовании приняли участие 100 взрослых пациентов, прошедших предварительное взаимодействие с системой AMIE. Из них 98 посетили запланированный амбулаторный прием у врача первичной медицинской помощи. Выборка пациентов включала различные возрастные и расовые/этнические группы, а также людей с разным уровнем медицинской и технологической грамотности. По сравнению с общим числом посещений неотложной помощи (1452) за период исследования, среди пациентов, участвовавших в исследовании, преобладали более молодые возрастные группы, поскольку более половины всех посещений неотложной помощи в клинике за период исследования пришлись на лиц старше 60 лет. Однако за период исследования общее число посещений неотложной помощи смещалось в сторону женщин и лиц европеоидной расы, что соответствовало выборке пациентов в данном исследовании.
В выборку пациентов для этого проспективного клинического исследования вошли люди различных возрастных и расовых/этнических групп, а также люди с разным уровнем медицинской и технологической грамотности и различным опытом использования чат-ботов.
Безопасность
Искусственный интеллект, управляющий взаимодействием AMIE с пациентами, был обучен инициировать остановку системы безопасности при выполнении одного из четырех заранее определенных критериев безопасности:
- Непосредственная обеспокоенность по поводу причинения вреда себе или другим.
- Пациент испытывает значительное эмоциональное потрясение в связи с взаимодействием с ИИ.
- Потенциальный вред для здоровья, выявленный руководителем на основании проведенного разговора.
- Явная просьба пациента о завершении сеанса.
В ходе всего исследования взаимодействия AMIE с пациентами не потребовалось ни одной остановки для обеспечения безопасности со стороны управляющих ИИ, что подтверждает безопасность диалога AMIE в реальных условиях эксплуатации.
Клиническое мышление
Для оценки диагностических и лечебных возможностей группа клинических экспертов, не участвовавших в консультациях по неотложной помощи, вслепую и в случайном порядке оценивала дифференциальные диагнозы и планы лечения, предложенные врачами общей практики и специалистами первичной медицинской помощи. Каждый случай заболевания рассматривался и оценивался тремя клиническими экспертами, а результаты основаны на суммарных оценках, полученных с использованием медианы по результатам трех экспертов для каждого случая.
Слепая оценка дифференциальных диагнозов (ДД) и планов лечения (ЛЛ) показала схожее общее качество ДД и планов ЛЛ между AMIE и врачами общей практики, без существенных различий в ДД, а также в целесообразности и безопасности планов ЛЛ. Однако врачи общей практики превзошли AMIE по практичности и экономической эффективности планов ЛЛ. ДД в AMIE включали окончательный диагноз, согласно анализу медицинской карты через 8 недель после обращения, в 90% случаев, с точностью 75% по трем наиболее точным критериям, и оставались высокими для подгруппы из 46 пациентов, у которых окончательный диагноз был подтвержден диагностическим тестом (лабораторным, микробиологическим, патологическим или визуализационным).
Эти различия в экономической эффективности и практичности планов лечения ожидаемы, учитывая разные условия, в которых работали специалисты по оценке состояния пациентов (AMIE) и врачи общей практики (PCP). Специалисты AMIE не имели доступа к электронной медицинской карте пациента, не могли проводить физический осмотр или учитывать мультимодальные данные от пользователя, такие как общее физическое состояние пациента. Врачи общей практики могли бы использовать это преимущество, обусловленное богатым контекстом, и свой опыт работы в конкретной клинической среде для разработки более экономически эффективного и практичного плана лечения.
Способности к клиническому мышлению, включая качество дифференциальных диагнозов и планов лечения, разработанных AMIE и врачами общей практики, оценивались группой клинических экспертов ( A и B ), а также точность диагностики AMIE по сравнению с окончательным диагнозом, установленным на основе анализа медицинской карты через 8 недель после обращения ( C ).
Для дальнейшей оценки диагностической эффективности мы сравнили дифференциальные диагнозы, предложенные системой AMIE, с окончательным диагнозом, установленным на основе анализа медицинской документации, проведенного через восемь недель после посещения врача неотложной помощи. Система AMIE успешно сопоставила окончательный диагноз с семью наиболее вероятными диагнозами в 90% случаев. Кроме того, система точно определила окончательный диагноз как наиболее вероятный единственный диагноз в 56% всех оцененных случаев.
Для лучшего понимания этих диагностических возможностей мы также провели анализ подгрупп в зависимости от того, как в конечном итоге был установлен окончательный диагноз. Случаи были классифицированы по тому, был ли окончательный диагноз предположительным (поставленным врачом общей практики без дополнительных исследований) или более подтверждающим (подтвержденным направлением к специалисту или диагностическим тестом, таким как лабораторный, микробиологический, патологический или визуализационный анализ). Хотя система AMIE сохраняла высокую диагностическую точность в случаях, требующих объективного подтверждения с помощью тестов или специалистов, общая точность системы, как правило, была еще выше в случаях, когда окончательный диагноз основывался исключительно на предположительном диагнозе врача общей практики.
Доверие и опыт
Помимо демонстрации безопасности, мы также изучили опыт пациентов и медицинских работников, связанных с AMIE. Пациенты заполняли Шкалу общего отношения к ИИ (GAAIS) до взаимодействия с AMIE, после взаимодействия с AMIE и после консультации с врачом. После взаимодействия с AMIE отношение стало более позитивным и оставалось на высоком уровне после посещения врача. Это изменение было статистически значимым для обеих подшкал — воспринимаемой полезности и опасений по поводу ИИ — и для общей шкалы.
Отношение пациентов к ИИ значительно улучшилось после взаимодействия с AMIE и оставалось на высоком уровне после посещения врача.
Опросы и интервью с пациентами показали высокий уровень удовлетворенности, при этом пациенты в целом сочли AMIE вежливым и эффективным в объяснении медицинских состояний.
Врачи, изучавшие стенограммы AMIE, составленные до визита, сочли их полезными, отметив положительное влияние на подготовку к визиту. В качественных интервью врачи общей практики отметили, что AMIE помогла изменить динамику визита с простого сбора данных на их проверку, что позволило вести более конструктивные беседы и принимать решения совместно.
Оценки качества общения в рамках системы AMIE с точки зрения пациента (розовый) и с точки зрения клинических экспертов (бирюзовый).
Ограничения и перспективы на будущее
Данное исследование предоставляет доказательства, свидетельствующие о первоначальной осуществимости, безопасности и приемлемости разговорного медицинского ИИ как полезного инструмента в реальных условиях, что представляет собой важный шаг на пути к потенциальному клиническому применению. Это исследование носило одноцентровый характер и выявило некоторые тонкие ограничения и области для улучшения, подчеркивая важность нашего безопасного и ответственного подхода к получению доказательств в реальных условиях.
Во-первых, текстовый интерфейс чата в данном исследовании не в полной мере отражает богатый, мультимодальный характер клинической помощи. Будущие системы могли бы выиграть от интеграции голосового или видеовзаимодействия, а также видеовозможностей для более точной фиксации невербальных сигналов и физических данных. Во-вторых, данное исследование не включало контролируемые сравнения и, следовательно, не подтверждает количественные утверждения об эффективности данного вмешательства по сравнению с базовым рабочим процессом. В будущих исследованиях можно будет опираться на результаты данной работы для количественной оценки влияния ИИ на системы здравоохранения с помощью контролируемых сравнений. Наконец, данное исследование не рассматривало исчерпывающе, как такие факторы, как предварительная медицинская грамотность, технологическая грамотность и знакомство с чат-ботами, влияют на взаимодействие с системами ИИ в клинических условиях; понимание того, как эти системы воспринимаются более широкими группами населения и как взаимодействие зависит от таких факторов, остается важной областью для будущих исследований.
В данном исследовании взаимодействие между AMIE и пациентами контролировалось в режиме реального времени специально назначенным врачом, что представляет собой одну из парадигм для обеспечения максимальной безопасности пациентов. Мы также изучали возможности асинхронных рабочих процессов в наших исследованиях OSCE, посвященных контролю со стороны врача .
В заключение, данная работа предоставляет важные эмпирические доказательства того, что разговорный ИИ может быть безопасным и полезным для пациентов и медицинских работников в реальных условиях, и мы с нетерпением ждем возможности дальнейшей оценки полезности и влияния этих систем в будущих более масштабных исследованиях с контролируемыми сравнениями.
Благодарности
Этот проект стал результатом масштабного сотрудничества между медицинским центром Beth Israel Deaconess Medical Center , Beth Israel Lahey Health и многочисленными командами Google Research , Google DeepMind и Google for Health . Мы благодарим наших многочисленных сотрудников, спонсоров и рецензентов этой работы. Мы благодарны нашим соавторам за большой вклад в это исследование: Питеру Бродеру, Джейкобу М. Коши, Анилу Палепу, Халеду Саабу, Аве Хомиар, Роме Рупарелу, Чарльзу Ву, Рютаро Танно, Джозефу Сюй, Эми Ван, Дэвиду Штуцу, Ханне М. Феррера, Дэвиду Барретту, Линдси Кроули, Джихён Ли, Спенсеру Э. Риттнеру, Эллери. Вулчин, Селена К. Чжан, Элахе Ведади, Кристин Дж. Кон, Кавита Кулкарни, Винай Кадияла, Сара Махдави, Венди Ду, Джессика Уильямс, Дэвид Фейнблум, Рене Вонг, Тао Ту, Петар Сиркович, Алессио Орланди, Кристофер Семтурс, Юн Лю, Юрай Готвайс, Дэйл Р. Вебстер, Жоэль Барраль, Кэтрин Чоу, Pushmeet Кохли, Авинатан хасидим, Йоси Матиас, Джеймс Маньика, Роб Филдс, Джонатан К. Ли, Марк Л. Коэн, Вивек Натараджан, Адам Родман.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.