Улучшение рабочих процессов скрининга рака молочной железы с помощью машинного обучения.
Масштабная оценка нашей маммографической системы в различных службах скрининга демонстрирует ее потенциал в повышении точности выявления рака и снижении рабочей нагрузки в сложных процессах двойного чтения снимков.
Быстрые ссылки
- Первое исследование
- Второе исследование
- Делиться
Рак молочной железы является основной причиной смерти женщин в возрасте 35–64 лет в Великобритании, но исследования убедительно показали, что ранняя диагностика с помощью маммографии спасает жизни. В настоящее время Национальная служба здравоохранения Великобритании (NHS) использует метод двойного анализа: два специалиста оценивают каждый случай, а арбитражная комиссия рассматривает дело по мере необходимости, исходя из местных протоколов и результатов двух первоначальных оценок. Хотя этот строгий процесс весьма эффективен, 30-процентный дефицит клинических радиологов, который, по прогнозам, к 2028 году достигнет 40%, угрожает долгосрочной устойчивости программы.
В последнее время растет интерес к исследованиям, изучающим потенциал искусственного интеллекта (ИИ) в процессе скрининга рака молочной железы. Основываясь на наших предыдущих работах в этой области, мы сотрудничали с несколькими организациями Национальной службы здравоохранения Великобритании (NHS) в рамках исследования «Искусственный интеллект в маммографическом скрининге» (AIMS), чтобы дополнительно изучить потенциал ИИ в этой области. Как сообщалось ранее в этом месяце, мы опубликовали два сопутствующих исследования в журнале Nature Cancer , в которых оценивались различные аспекты системы обнаружения рака молочной железы на основе ИИ. В первом исследовании мы оценили производительность автономной системы ИИ и возможность ее интеграции в будущую практику. Во втором мы провели комплексное исследование, сравнивая исходный процесс двойного чтения и арбитража с процессом, в котором система ИИ использовалась в качестве второго эксперта. Хотя для доказательства эффективности этой системы в будущей клинической практике необходимы дополнительные исследования, эти исследования подтверждают потенциальную пользу использования ИИ для поддержки скрининга рака молочной железы.
Исследование 1: Автономная производительность и возможность интеграции.
Первое исследование было разделено на два этапа. На первом этапе мы провели масштабную многоцентровую ретроспективную оценку автономной работы системы искусственного интеллекта. На втором этапе мы провели проспективное неинтервенционное исследование по внедрению, чтобы оценить целесообразность и проблемы, связанные с интеграцией работающей системы в реальные клинические рабочие процессы.
Этап 1: Многоцентровая автономная оценка эффективности
Первый, ретроспективный этап включал маммограммы 125 000 женщин (115 973 после применения критериев включения/исключения), прошедших обследование в пяти центрах скрининга Национальной службы здравоохранения Великобритании. В этих центрах использовались три различных клинических алгоритма, различающихся тем, был ли второй специалист, проводивший обследование, не осведомлен о результатах первого, и как отбирались случаи для арбитража (см. рисунок ниже). Рабочие точки ИИ (порог, определяющий степень консервативности, с которой ИИ помечает случаи) определялись отдельно в каждом центре скрининга для учета местных различий в группах пациентов и алгоритмах обследования.
Основными целями исследования были оценка чувствительности и специфичности системы ИИ в выявлении рака по сравнению с историческим (первоначальным) первым экспертом, проводившим обследование. В исследовании использовалась строгая эталонная модель, включающая 39-месячный период наблюдения, что позволило изучить дополнительную пользу системы ИИ в выявлении интервальных и последующих стадий рака задолго до появления клинических симптомов. Помимо основных целей, в исследовании также оценивалась эффективность системы ИИ по сравнению со вторым экспертом и экспертом, проводившим консенсусное заключение, а также локализация на уровне очагов поражения (была ли идентифицирована правильная аномалия в молочной железе) и анализ объективности. Включение строгого анализа на уровне очагов поражения позволило оценить, насколько успешно система ИИ локализует точные области интереса, а не полагается на потенциально ложные корреляции. Этот этап исследования был ретроспективным, что позволило подтвердить эффективность системы ИИ в больших масштабах, и не включал сбор дополнительных заключений от экспертов или перспективное внедрение.
Общая схема первого этапа данного исследования, иллюстрирующая ретроспективную оценку в пяти службах скрининга.
Этап 2: Оценка технической осуществимости
На втором этапе, чтобы понять практические аспекты внедрения ИИ в реальные рабочие процессы скрининга в различных клиниках, мы провели перспективное неинтервенционное внедрение в 12 пунктах скрининга в двух крупных службах скрининга в Лондоне. Этот этап был сосредоточен на демонстрации успешной технической интеграции, оценке автоматизированных проверок соответствия критериям и мониторинге изменений в распределении.
На местах проведения исследований мы псевдонимизировали результаты скрининговой маммографии, прежде чем передать их в защищенную систему искусственного интеллекта на базе Google Cloud для обработки. В этом исследовании также оценивался итеративный процесс калибровки рабочих точек, в ходе которого исследователи отслеживали показатели повторных вызовов и корректировали рабочие точки в ходе исследования, чтобы лучше откалибровать систему в соответствии с местными условиями и обеспечить безопасность эксплуатации.
Ключевые результаты
В ходе автономной оценки производительности система ИИ продемонстрировала значительно более высокую чувствительность, чем первоначальный анализ, проведенный человеком, без ущерба для специфичности. Общий показатель выявления рака вырос с 7,54 до 9,33 на 1000 женщин, и, что особенно важно, система ИИ смогла обнаружить 25% интервальных случаев рака, которые были пропущены при первоначальном двойном анализе.
На этом рисунке показана превосходная чувствительность и не уступающая чувствительность системы искусственного интеллекта в обнаружении рака как на уровне отдельных случаев, так и на уровне молочной железы.
Искусственный интеллект особенно хорошо справлялся с обнаружением инвазивных раковых заболеваний, достигая более высокой чувствительности для этих типов рака с повышенным риском, чем первоначальные оценки, проведенные людьми. Он также показал исключительно хорошие результаты для женщин, проходящих первое обследование, где повысил чувствительность обнаружения, существенно снизив при этом количество ложноположительных результатов. Предварительный анализ не выявил существенных систематических демографических различий по возрасту, этнической принадлежности, плотности молочной железы или социально-экономическому статусу.
На этапе перспективного внедрения система ИИ была успешно развернута без вмешательства на 12 действующих пунктах скрининга NHS, обработав 9266 случаев в двух службах в течение примерно двух месяцев на каждую службу. Время от завершения скрининга до завершения анализа ИИ было быстрым, в среднем 17,7 минут, по сравнению с более чем двумя днями для первого анализа человеком. Что особенно важно, в ходе реального внедрения было успешно выявлено «смещение распределения» между историческими обучающими данными и современными клиническими данными. Выявив это смещение, исследование демонстрирует, что безопасное внедрение ИИ может быть более эффективным, если оно сопровождается строгим поэтапным подходом к калибровке рабочих точек в соответствии с местными рабочими процессами и требованиями.
Исследование 2: Оценка интеграции в рабочие процессы с участием двух экспертов.
В то время как первое исследование включало количественную оценку автономной работы, оно не рассматривало вопрос о том, как бы люди-эксперты работали при реальном взаимодействии с результатами работы ИИ в процессе арбитража. В то время как предыдущие ретроспективные исследования имитировали арбитраж, наше второе исследование представляло собой масштабное исследование с участием 22 экспертов, которые рассматривали тысячи дел, используя реальные правила местных служб проверки, что позволило получить представление о реальном взаимодействии человека и ИИ. Мы сравнили два рабочих процесса:
- Стандартный вариант лечения : включает в себя исторические решения первого и второго экспертов-консультантов.
- Искусственный интеллект в руке : Сочетание исторического решения первого человека-читателя с нашим ИИ-читателем.
Дизайн исследования для сравнения традиционного процесса двойного прочтения текста человеком (стандартный подход) и процесса с использованием искусственного интеллекта.
В этом исследовании приняли участие 50 000 женщин (45 602 после применения критериев включения/исключения). 22 аккредитованных специалиста по маммографии рассмотрели 8732 случая, потребовавших арбитража в соответствии с правилами местных служб скрининга — одна служба определяла порядок арбитража, когда два первоначальных эксперта расходились во мнениях относительно рекомендации о повторном обследовании, а другая — когда один из первоначальных экспертов рекомендовал повторное обследование. Арбитры рассматривали случаи парами, имитируя клинические экспертные комиссии. В группе стандартного лечения арбитры рассматривали мнения двух экспертов, а в группе с использованием ИИ арбитрам показывали мнение первого эксперта вместе с результатами работы ИИ и выделенными областями интереса. Затем арбитры принимали окончательное решение о том, следует ли повторно обследовать женщину. Аналогично методологии, описанной в нашей первой статье, исследование имело надежную основу для проверки достоверности данных, включающую 39-месячный период наблюдения, что позволило исследователям отслеживать, может ли рабочий процесс с использованием ИИ выявлять интервальные и последующие стадии рака раньше, чем при стандартном лечении. Основной целью исследования было подтверждение не меньшей эффективности в выявлении рака на уровне отдельных случаев с использованием ИИ по сравнению со стандартной группой лечения.
Ключевые результаты
После анализа всего набора дел, включая дела, рассмотренные и не рассмотренные в арбитражном порядке, мы обнаружили, что рабочий процесс с использованием ИИ статистически не уступает традиционному рабочему процессу с участием двух человек с точки зрения общей чувствительности и специфичности после арбитража. Помимо получения результатов, аналогичных традиционному рабочему процессу, мы подсчитали, что рабочий процесс с использованием ИИ обеспечит сокращение общего числа необходимых экспертных оценок на 46%. Это немного меньше 50%, поскольку примерно 8,7% сложных случаев, таких как случаи, связанные с грудными имплантатами, по-прежнему требуют участия двух экспертов. С учетом того, что экспертная оценка занимает больше времени, чем оценка первым или вторым экспертом, это приводит к сокращению общего времени, затрачиваемого экспертами, на 36–44%. Эта экономия времени для экспертов без соразмерного ущерба для результатов потенциально может помочь решить проблему постоянно растущей нагрузки на врачей в Великобритании.
Визуализация левой части ROC-кривой , показывающая чувствительность и специфичность результатов первого, второго, искусственного интеллекта и консенсуса (обозначенного как «группа») для каждой из двух служб скрининга, участвовавших в исследовании. Чувствительность и специфичность рабочего процесса с использованием ИИ («группа ИИ») были не ниже, чем у исходного рабочего процесса с участием человека («группа человека») в обеих службах.
Хотя арбитраж успешно отфильтровал множество ложных срабатываний как со стороны экспертов-людей, так и со стороны системы ИИ, исследование выявило связанный с этим недостаток: арбитражные комиссии ошибочно отменили правильные решения ИИ по 93 случаям рака, большинство из которых представляли собой труднообнаружимые интервальные и последующие стадии заболевания. Этот результат подчеркивает необходимость продолжения исследований того, как эксперты-люди интерпретируют и обрабатывают прогнозы ИИ, которые могут противоречить их собственным, с акцентом как на укрепление доверия между экспертами, так и на повышение объяснимости результатов ИИ.
Заключение
В совокупности эти исследования демонстрируют, что системы скрининга на основе ИИ могут обеспечить превосходную эффективность обнаружения рака при индивидуальном анализе и не уступающую эффективность при полном цикле двойного анализа, используемом в Великобритании. Скрининг с использованием ИИ потенциально может значительно сократить общую рабочую нагрузку и время, затрачиваемое на анализ, одновременно повышая показатели обнаружения рака, особенно инвазивных форм и при первичном скрининге. Однако для реализации полного потенциала ИИ потребуется преодоление операционных проблем, таких как управление возросшим объемом арбитражных запросов, улучшение объяснимости модели и активное управление дрейфом данных посредством непрерывного мониторинга производительности и локальной калибровки пороговых значений.
В конечном итоге, эта работа подтверждает идею о том, что скрининг с использованием ИИ может способствовать созданию устойчивой системы здравоохранения, где технологии и человеческий опыт работают в тандеме для более раннего выявления рака и, что наиболее важно, для спасения большего числа жизней.
Благодарности
Мы хотели бы поблагодарить многочисленных участников из Google Research, Национальной службы здравоохранения и наших академических партнеров, благодаря которым эта работа стала возможной. Мы также благодарим сотрудников Имперского колледжа Лондона, Королевского фонда здравоохранения Суррея, университетских больниц Святого Георгия, Cancer Research UK и Cancer Research Horizons, которые курировали и обеспечивали доступ к данным OPTIMAM, использованным в этом исследовании. Особую благодарность мы выражаем группе по вовлечению пациентов и общественности за их бесценные советы и вклад. Исследование AIMS финансировалось за счет гранта Национального института исследований в области здравоохранения и социального обеспечения (NIHR) от министра здравоохранения и социального обеспечения. Изображения были изменены по сравнению с изображениями, опубликованными в Nature Cancer, в соответствии с международной лицензией Creative Commons Attribution 4.0. Чтобы ознакомиться с копией этой лицензии, посетите http://creativecommons.org/licenses/by/4.0/ .
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.