Утверждения о том, что медицинский ИИ улучшает качество медицинской помощи, должны быть подкреплены соответствующими доказательствами.
Внедрение инструментов на основе искусственного интеллекта (ИИ) стремительно растет на всех уровнях систем здравоохранения. Прогностические модели, инструменты поддержки принятия решений и генеративные инструменты уже проникли в клиническую практику¹, а большие языковые модели все чаще используются широкой общественностью для поиска медицинской информации и консультаций². Однако доказательств того, что инструменты ИИ приносят пользу пациентам, поставщикам медицинских услуг или системам здравоохранения, по-прежнему мало.
Тем не менее, в публикациях и материалах по продуктам все чаще встречаются заявления о клиническом воздействии, хотя нет четкого согласия относительно того, какой уровень доказательств должен требоваться, прежде чем такие заявления будут считаться достоверными. Результатом является не только научная неопределенность, но и зачастую преждевременное внедрение и использование. Если ИИ должен существенно улучшить качество медицинской помощи, необходимо начать систематически и последовательно связывать заявления о воздействии с соответствующими, соразмерными доказательствами. Срочно необходима система оценки медицинских технологий на основе ИИ, с использованием каких показателей и по каким критериям.
До сих пор оценка медицинского ИИ в основном основывалась на статистических показателях — таких как дискриминация, калибровка, чувствительность и специфичность — которые измеряют вычислительные возможности и производительность инструмента. Хотя эти показатели, безусловно, важны, сами по себе они не устанавливают клиническое воздействие. Система может очень хорошо работать при ретроспективной проверке, но при этом не улучшить качество медицинской помощи, если ее результаты несвоевременны, сложны для интерпретации, непоследовательно обрабатываются или нарушают клинические рабочие процессы. В результате, когда такие инструменты внедряются без более конкретных показателей их клинического воздействия, системы здравоохранения и пользователи могут инвестировать в продукты, реальная ценность которых в лучшем случае остается неопределенной, а непредвиденные последствия могут быть существенными.
Исторически сложилось так, что для подтверждения клинического эффекта в медицине требовалось нечто большее, чем просто демонстрация технических характеристик. Например, разработка лекарств обычно требует все более убедительных доказательств, прежде чем будет признана клиническая польза, а механизмы надзора со стороны государственных органов помогают определить, когда доказательств достаточно для одобрения, рекомендации или возмещения затрат. По многим причинам, включая быстрые темпы технологических изменений, разнородные области применения и различные стимулы для сбора доказательств, в области медицинского ИИ до сих пор не разработаны сопоставимые нормы. Хотя нормативно-правовые рамки являются предметом постоянных дискуссий и разработок, они остаются неадекватными3. Опубликованные исследования часто делают акцент на технической обоснованности, а не на клинической полезности4. Решения о внедрении часто принимаются до того, как будут адекватно рассмотрены основные вопросы практической применимости, осуществимости, безопасности и эффективности5. В отсутствие консенсуса по стандартам доказательств эти решения могут в большей степени основываться на энтузиазме на раннем этапе внедрения, чем на последовательных критериях. Без более четких правил и прямого требования предоставлять убедительные доказательства порог для заявления о ценности остается слишком изменчивым.
В дальнейшем в области медицинского ИИ необходимо разработать последовательную структуру, связывающую утверждения о клинической ценности инструмента ИИ с соответствующими доказательствами, необходимыми для подтверждения этих утверждений. Например, утверждения об аналитической эффективности должны требовать надежной валидации в предполагаемых условиях и для целевой популяции, тогда как утверждения о клинической применимости должны требовать доказательств того, что результаты интерпретируемы и могут способствовать принятию обоснованных решений. Утверждения о пользе для рабочих процессов должны требовать исследований по внедрению, показывающих, что инструменты могут быть интегрированы без задержек, обременений или непредвиденного вреда. Утверждения об улучшении результатов или эффективности должны требовать более убедительных перспективных доказательств, включая сравнительные оценки со стандартами лечения, где это уместно. Более того, поскольку производительность модели может меняться со временем, мониторинг после внедрения следует рассматривать как институциональное ожидание, а не как позднее, необязательное дополнение.
Наличие такой структуры не означает, что каждый инструмент ИИ должен пройти все этапы тестирования вплоть до рандомизированного контролируемого исследования, прежде чем его внедрять, как это обычно требуется для других медицинских вмешательств. Во многих случаях это было бы нецелесообразно, учитывая высокие затраты, быстрое обновление моделей, лежащих в основе инструментов, а также общую сложность и время, необходимые для проведения таких исследований. В то же время, принятие одних лишь ретроспективных показателей в качестве достаточного основания для доверия не является научно обоснованным. Поэтому целью должна быть соразмерность доказательств, то есть чем сильнее утверждение, тем сильнее доказательства, необходимые для его подтверждения.
Этот принцип имеет практическое значение для всех заинтересованных сторон. Например, регулирующие органы должны лучше разъяснить, какие категории медицинских инструментов ИИ требуют предварительных доказательств клинического воздействия, а какие могут быть внедрены в практику на основании более ограниченных заявлений. Медицинские организации и администраторы должны различать пилотное внедрение, оперативное использование и доказательства пользы, а не объединять их в одно решение. Во всех этих условиях стандарты доказательств должны быть прозрачными, специфичными для конкретных заявлений и открытыми для пересмотра по мере развития инструментов.
Научные журналы, как часть исследовательской экосистемы, обладают уникальной возможностью определять приемлемые типы доказательств. В развивающихся областях опубликованная литература часто рассматривается как установление того, что представляет собой достоверное доказательство для той или иной области исследований или практики. Внедряя соразмерные стандарты доказательности, журналы могут гарантировать, что опубликованные исследования отражают подлинные клинические утверждения, а не просто технические обещания, и эту роль мы будем продолжать поддерживать в Nature Medicine .
Следующий этап прогресса будет зависеть не только от более совершенных моделей и новых приложений, но и от более четких ожиданий в отношении того, как определяется, оценивается и сообщается о клиническом воздействии. Без четкой связи между утверждениями и доказательствами медицинский ИИ рискует внедряться быстрее, чем будет понята его реальная ценность.
Ссылки
Хван, Ю.М., Нг, М.Й., Пиллай, М., Сахай, М.П. и Эрнандес-Буссар, Т. Nat. Health 1 , 99–112 (2026).
Коста-Гомес, Б. и др. Препринт доступен по адресу https://doi.org/10.48550/arXiv.2512.11879 (2025).
Фрейер О. и др. Нат. Мед. 31 , 3239–3243 (2025).
Шуффани Эль Фасси, С. и др. Нат. Мед. 30 , 2718–2720 (2024).
Ангус, округ Колумбия и др. JAMA 334 , 1650–1664 (2025 г.).
Права и разрешения
Источник: www.nature.com





















