Как структурированные знания стали незаметным преимуществом здравоохранения
Делиться

Примечание 1: Эта статья является первой частью серии из трех статей о здравоохранении, графах знаний и уроках для других отраслей.
Примечание 2: Все изображения предоставлены автором.
Краткое содержание
Представьте, что вы живете в первой половине XIX века и чувствуете почти парализующую боль в животе. Теперь перед вами стоит выбор. Вы либо учитесь жить с этой болью до конца жизни (которая может начаться через несколько недель или месяцев, в зависимости от причины боли), либо отправляетесь к врачу — кошмарный опыт, потенциально включающий мучительные процедуры, такие как кровопускание, слабительные, искусственная рвота или употребление ампул с ртутью (Хагер 52).
Нет данных о том, как распространяются болезни, поэтому попадание в переполненную больницу может означать заражение оспой и холерой (Кирш и Огас, 80). Если вам не повезет и потребуется операция (или врач назначит ненужную — опять же, о путях распространения болезней практически ничего не известно), анестезии не будет. Найти лучшего хирурга, скорее всего, означает найти самого быстрого, способного работать максимально оперативно, чтобы минимизировать время, которое санитары могут потратить на то, чтобы удерживать вас, пока вы кричите и корчитесь на столе. Даже если вы переживете операцию, у вас все равно есть значительный шанс умереть от инфекции, поскольку нет данных о теории микробов, а значит, и об асептике (Кирш и Огас, 45). А если вы беременная женщина, то можете ожидать, что в родильном отделении будет еще хуже. Почти 15 процентов детей, родившихся в Великобритании в середине XIX века, умирали при рождении.
Сравните это с уровнем медицинского обслуживания в любой развитой стране сегодня, и, скажем так, мы прошли долгий путь. Уровень младенческой смертности в развитых странах сейчас составляет менее 6 на 1000 живорожденных, или 0,6 процента. Средняя продолжительность жизни в развитых странах обычно превышает 80 лет по сравнению с примерно 40 годами в середине XIX века. У нас есть лекарства и другие методы лечения почти всех наиболее распространенных заболеваний, и человечество ежедневно излечивает все больше болезней. Будущее выглядит еще более многообещающим, особенно с учетом растущих возможностей искусственного интеллекта и финансирования, направленного на его развитие. Например, Инициатива Чана-Цукерберга (CZI) направлена на то, чтобы помочь ученым лечить, предотвращать или контролировать все болезни к концу XXI века.
Как здравоохранение достигло такого прогресса? И почему сегодня здравоохранение продолжает привлекать непропорционально большие инвестиции в ИИ? Дело не просто в улучшении данных; дело в более структурированной системе знаний. Задолго до появления компьютеров в медицине начали формироваться общие представления о болезнях и причинно-следственных связях, контролируемые словари для каталогизации объектов реального мира и стандарты данных для обеспечения эмпиричности и воспроизводимости наблюдений. Взятые вместе, эти структуры образуют то, что мы сейчас можем назвать графом знаний.
В общих чертах, графы знаний решают ряд повторяющихся проблем, которые становятся неизбежными по мере масштабирования предметных областей:
- Поиск и извлечение информации в разрозненных системах, форматах и терминологии.
- Исследование и проектирование сложных, взаимосвязанных систем.
- Повторное использование и перепрофилирование существующих знаний и активов.
- Поддержка принятия решений в условиях неопределенности с объяснимой логикой.
- Рекомендации и персонализация, основанные на семантике предметной области.
- Управление, отслеживаемость и соблюдение нормативных требований
Зрелые графы знаний в области здравоохранения позволяют разрабатывать лекарства, нацеленные на конкретные заболевания, объясняют, почему ваш врач знает о негативных побочных эффектах лекарства в Японии, даже если там оно называется по-другому, и почему врачи могут собирать и анализировать данные миллионов клинических случаев и экспериментов, часто в режиме реального времени.
В этой серии из трех частей я надеюсь предоставить контекст и информацию о том, как графы знаний (и их предшественники) работали в здравоохранении, как здравоохранение стало лидером отрасли в области графов знаний, а также поделиться некоторыми потенциальными уроками для других отраслей, сталкивающихся с аналогичными проблемами.
Что такое граф знаний?
Граф знаний — это многоуровневая система знаний, в которой онтологии определяют значение, контролируемые словари каталогизируют сущности, а данные наблюдений предоставляют доказательства, позволяя знаниям накапливаться, развиваться и подвергаться анализу по мере улучшения понимания.
Онтология определяет классы и отношения между классами; это теория, лежащая в основе графа знаний. В медицине классами являются такие вещи, как патогены, болезни и лекарства. Онтология определяет ограничения и причинно-следственные предположения относительно того, как эти вещи связаны. Например, патогены — это организмы, которые могут вызывать болезни. Лекарства — это химические вещества, которые могут воздействовать на патогены и, потенциально, подавлять болезни. Онтология работает с классами, а не с экземплярами — она не говорит вам, какие патогены вызывают какие болезни или какие лекарства подавляют какие патогены.

Экземпляры определяются как контролируемые словари . Контролируемые словари — это каталоги экземпляров классов, определенных в онтологии. Например, существуют тысячи известных патогенов, которые могут вызывать заболевания у человека: от вирусов до бактерий и паразитов. Существуют также тысячи лекарств и тысячи заболеваний. Эти экземпляры классов каталогизируются и поддерживаются экспертами и регулярно обновляются по мере того, как мы узнаем о них больше. Некоторые контролируемые словари в здравоохранении называются «омиксными», потому что они относятся к вещам, которые заканчиваются суффиксом «омикс», таким как геномика, протеомика и метаболомика.
Примечание: В данном контексте я использую общий термин «контролируемые словари» как собирательное понятие, включающее таксономии, глоссарии, словари, справочные данные и тезаурусы. Между ними существуют различия, но для целей этой статьи общего характера мы будем использовать термин «контролируемый словарь» для обозначения всех этих терминов.

Мы познаём мир посредством наблюдения , и в здравоохранении эти наблюдения рассматриваются как доказательства. Клинические испытания и лабораторные эксперименты предоставляют данные наблюдений, которые подтверждают, уточняют или опровергают утверждения о том, как объекты в нашем контролируемом словаре связаны друг с другом. Откуда мы знаем, что патоген Treponema pallidum вызывает сифилис? Потому что учёные провели эксперимент, измерили результаты и получили доказательства. Откуда мы знаем, что сальварсан воздействует на Treponema pallidum, уничтожает её и излечивает сифилис? Потому что учёные провели клинические исследования и измерили эффект лечения пациентов с сифилисом сальварсаном.

Соединение объектов таким образом создает граф. Объекты в графе иногда называются узлами, а соединения — ребрами. Графы могут содержать миллионы узлов и ребер, и в такой структуре начинают проявляться закономерности. Например, можно определить наиболее важные или влиятельные узлы в графе, выделить кластеры узлов, которые глубоко связаны между собой, или найти кратчайшие пути между различными объектами. Эти методы (часто называемые анализом графов) широко используются в медицине в рамках так называемой сетевой медицины для выявления механизмов заболеваний и потенциальных терапевтических мишеней (Barabási, Gulbahce, Loscalzo, 2011). Все это возможно с помощью графа, но поскольку у нас есть онтология, у нас есть нечто большее, чем просто граф. У нас есть граф знаний.
Связи в графе знаний представляют собой явные утверждения о мире: факты. Граф знаний не просто утверждает: «Сальварсан связан с Treponema pallidum». Он утверждает: «Сальварсан подавляет Treponema pallidum». Он также утверждает: «Treponema pallidum вызывает сифилис». Эти два факта, в сочетании с логикой, закодированной в онтологии, позволяют графу знаний вывести новое отношение или факт, а именно, что сальварсан может лечить или излечивать сифилис. Это называется рассуждением или способностью выводить «логические следствия из набора фактов или аксиом». Графы знаний превосходно справляются с этим, потому что они делают явными как факты, так и правила их объединения.
В медицине эта структура управления знаниями используется уже несколько десятилетий. Ученые проводят эксперименты и узнают новое. Результаты этих экспериментов приводят к обновлению контролируемых словарей и/или связей между сущностями в контролируемых словарях. Ген X связан с белком Y, который участвует в биологическом процессе Z. По мере роста числа сущностей и связей растут и наши знания. Иногда, но гораздо реже, онтология меняется. Существенное изменение в онтологии — это не просто постепенное увеличение знаний, а часто изменение нашего понимания мира.
Здравоохранение является лидером в области графов знаний, поскольку оно преуспевает на всех трех уровнях. Десятилетиями оно совершенствовало причинно-следственные модели функционирования природного мира; тщательно каталогизировало миллионы заболеваний, лекарств, белков и всего остального, имеющего отношение к медицине; и проводило эмпирические, воспроизводимые эксперименты со стандартизированными данными. Эти основы были укреплены сильным регуляторным давлением, которое требовало стандартизации и сопоставимости доказательств, широким доконкурентным сотрудничеством и государственным финансированием, а также ранним внедрением открытых, независимых от поставщиков семантических стандартов. В совокупности эти факторы создали условия, в которых графы знаний могли процветать как основная инфраструктура, а не как экспериментальная технология.
Какие проблемы решают графы знаний?
Как только вы сопоставите сущности, подтвердите их данными из реального мира и построите причинно-следственные связи, у вас получится граф знаний, и вы сможете делать множество интересных вещей. Я рассмотрю некоторые из наиболее известных примеров использования графов знаний в здравоохранении сегодня и то, как они могут применяться в других областях.
Поиск
Вероятно, наиболее распространенный вариант использования графов знаний — это поиск. Современное здравоохранение требует возможности извлечения релевантного, взаимосвязанного контекста из разнородных и мультимодальных данных. Предположим, вы работаете в крупной фармацевтической компании и хотите узнать все о каком-либо препарате. Возможно, вы хотите перепрофилировать этот препарат, оценить его риски для безопасности или сравнить его с конкурентом. Или, может быть, FDA запросило у вас информацию о нем. Вам придется искать экспериментальные данные в реляционных базах данных, отчеты о клинических испытаниях в системах управления контентом, а также информацию из множества сторонних баз данных в общедоступных или отраслевых источниках. Данные не только разбросаны по разрозненным системам и представлены в разных форматах (реляционные, текстовые, слайды, аудио), но и сам препарат может иметь разные названия. Например, компания могла передать проведение клинических испытаний британской компании, которая назвала препарат его общим названием.
По мере широкого распространения генеративного ИИ, поиск информации стал критически важной функцией в каждой отрасли. Большие языковые модели (LLM) обучались на большом объеме данных, но не на ваших данных, поэтому способность извлекать релевантный внутренний контекст имеет решающее значение при работе с этими моделями. Сейчас мы называем это контекстной инженерией: «искусство и наука заполнения контекстного окна именно той информацией, которая необходима на каждом шаге траектории агента», как описал это Лэнс Мартин из LangChain.
Благодаря многолетним инвестициям в графы знаний, сфера здравоохранения находится в уникально выгодном положении для использования преимуществ новой эры искусственного интеллекта. Такие задачи, как подача отчетов в регулирующие органы, значительно упрощаются, если есть возможность получить доступ к соответствующему внутреннему контексту, доказательствам и фактам. Существуют компании, такие как Weave, которые используют графы знаний именно для этих целей. Они используют возможности графа для извлечения необходимой информации, а LLM — для обобщения и ответа на вопросы регулирующих органов, что позволяет автоматизировать генерацию отчетов.
Крупные финансовые организации, такие как Morgan Stanley, Bloomberg, HSBC и JPMorgan Chase, также используют графы знаний для объединения разрозненных хранилищ данных с целью создания помощников в исследованиях и расширенных возможностей поиска для своих сотрудников и клиентов.
Открытие и проектирование
Понимание взаимодействия различных объектов как в теории, так и в лабораторных условиях позволяет ученым, работающим в области разработки лекарств, создавать препараты, отвечающие конкретным целям. Вместо того чтобы тестировать различные соединения вслепую, надеясь найти что-то полезное, исследователи теперь могут, исходя из желаемого результата (например, снижения артериального давления), выявлять потенциальные соединения, учитывая при этом различия между пациентами (генетика, возраст, пол), взаимосвязанные системы и потенциальные побочные эффекты, и все это в соответствии с нормативными требованиями. Многие крупнейшие мировые фармацевтические компании, включая AbbVie, AstraZeneca, GSK, Pfizer, Merck, Novartis, Novo Nordisk, Roche и Sanofi, используют графы знаний для разработки лекарств. Существуют также компании, которые специализируются исключительно на создании графов знаний в области здравоохранения для разработки лекарств, такие как BioRelate и BenevolentAI.
Аналогичные проблемы встречаются во многих других отраслях. Банкам часто приходится создавать финансовые продукты (например, структурированные облигации), которые обеспечивают желаемый результат (например, более высокую доходность с минимальными потерями), учитывая при этом взаимосвязанные системы, смягчая негативные последствия и соблюдая нормативные ограничения. Аналогично, специалистам в области государственной политики часто приходится разрабатывать меры, которые обеспечивают желаемый результат (например, сокращение бедности), учитывая при этом различные местные условия (например, географию, культуру, климат), взаимосвязанные системы и потенциальные негативные последствия.
Повторное использование
Вместо того чтобы разрабатывать совершенно новый препарат для достижения желаемого результата, иногда проще использовать уже существующий. Когда у доктора Дэвида Файгенбаума, ещё будучи студентом медицинского факультета, диагностировали редкое иммунологическое заболевание, ему сказали, что ему осталось жить всего несколько недель, и вызвали священника, чтобы тот совершил над ним последний обряд. Хотя времени на разработку нового препарата не хватило, нашлось время, чтобы использовать уже имеющийся. Именно это он и сделал. Он нашёл препарат, изначально предназначенный для предотвращения отторжения трансплантированных органов, и применил его на себе. Его болезнь находится в ремиссии уже 11 лет, он закончил медицинский факультет и основал некоммерческую организацию Every Cure, чтобы «гарантировать, что пациенты не будут страдать, пока потенциальные методы лечения остаются незамеченными». Every Cure использует, среди прочих методов, графы знаний.
Перепрофилирование лекарственных препаратов заключается в том, чтобы взять существующий продукт, понять его базовую структуру и безопасно применить его в новом контексте. Государственная политика следует той же схеме. Специалисты выявляют меры, которые сработали в одном контексте, понимают, почему они сработали, и применяют их в другом месте. Аналогично, многие компании обладают огромным массивом данных, собранных для давно забытых целей. Но, понимая значение и контекст этих данных, их можно переупаковать и использовать для других целей.
Поддержка принятия решений
Медицинские работники часто полагаются на системы поддержки принятия решений, которые помогают принимать решения, включающие множество взаимосвязанных факторов и неполные данные (Янг и др., Аль-Хатиб и др., Чжан и др.). Каждый день врачам приходится принимать решения о лечении и диагностике своих пациентов, основываясь на ограниченной, постоянно меняющейся информации. Электронные медицинские карты (ЭМК) отдельного пациента могут быть скудными и обладать ограниченной прогностической способностью (Янг и др.). Графы знаний дают врачу возможность связывать ЭМК с контролируемыми словарями (заболевания, симптомы, лекарства) и данными наблюдений из предыдущих исследований, а также, все чаще, с данными, генерируемыми самими пациентами с помощью носимых устройств (Аль-Хатиб и др.).
Это помогает врачу ставить более обоснованные диагнозы и давать рекомендации по лечению, основывая решения на знаниях, полученных из аналогичных случаев, популяций и клинических данных, при этом учитывая специфический контекст пациента. Это особенно ценно, поскольку лежащая в основе логика может быть четко выражена и объяснима, в отличие от многих решений на основе искусственного интеллекта, работающих по принципу «черного ящика». Такие компании, как Evidently, разрабатывают инструменты поддержки принятия решений, основанные на графах знаний и искусственном интеллекте, для объединения данных о пациентах из электронных медицинских карт и существующих клинических данных, чтобы помочь врачам принимать более качественные, обоснованные и объяснимые решения в режиме реального времени.
Другие отрасли также используют графы знаний для создания инструментов поддержки принятия решений. Корпорация MITRE, занимающаяся исследованиями и разработками, публикует MITRE ATT&CK, граф знаний о тактике и методах противников, предназначенный для поддержки принятия решений в операциях по кибербезопасности. OpenCorporates — это открытый граф знаний о юридических лицах, который используется такими компаниями, как Encompass, для поддержки принятия решений в отношении комплексной проверки.
Рекомендательные системы
В то время как системы поддержки принятия решений сосредоточены на точности диагностики, безопасности и соблюдении клинических рекомендаций, рекомендательные системы в здравоохранении ориентированы на персонализацию и приоритизацию вариантов для пациентов. Эти системы часто используют ориентированные на пациента графы знаний (иногда называемые индивидуализированными графами знаний или персонализированными графами знаний о здоровье) для интеграции истории болезни, данных электронных медицинских карт, справочных знаний и данных с носимых устройств. Вместо определения правильности клинического решения, рекомендательные системы выявляют и ранжируют релевантные варианты, такие как планы лечения, изменения образа жизни, последующие действия или пути лечения, которые наиболее подходят для конкретного пациента в данный момент времени.
В других отраслях, даже больше, чем в здравоохранении, рекомендательные системы, основанные на графах знаний и семантических технологиях, используются еще активнее. Практически все, что вы покупаете и смотрите, предлагается вам через рекомендательные системы. Интернет-магазины, такие как Amazon, используют их для предложения товаров, которые вам могут понравиться, стриминговые сервисы, такие как Netflix, используют их для подбора сериалов для просмотра, а LinkedIn использует их для рекомендации вакансий кандидатам и кандидатов рекрутерам.
Управление
Здравоохранение — это высокорегулируемая отрасль. Фармацевтические компании должны соблюдать правила, чтобы обеспечить мониторинг и оценку любых потенциальных побочных эффектов своих препаратов; это называется фармаконадзором. Они также хранят данные о здоровье пациентов, которые являются невероятно конфиденциальными и чувствительными, и должны соблюдать регулирующие нормы, такие как Закон Калифорнии о защите конфиденциальности потребителей (CCPA) или Общий регламент по защите данных (GDPR). Для этого они сосредотачиваются на так называемом отслеживании происхождения данных — систематическом отслеживании того, как данные генерируются, преобразуются и используются в различных системах. Графы знаний способствуют эффективному управлению данными, связывая знания предметной области со знаниями о самой организации, такими как бизнес-процессы, организационная структура, собственность, роли и политики. Затем организации могут отслеживать, как данные перемещаются по системам, определять, кто за них отвечает, понимать, каким командам разрешено их использовать и для каких целей, и обеспечивать соблюдение правил управления (Оливейра и др.).
Компании, предоставляющие финансовые услуги, как и компании в сфере здравоохранения, используют подходы, основанные на графах знаний, для поддержки управления корпоративными данными. Недавние исследования предлагают распространить эти же принципы на управление ИИ, связав данные, политики и решения в единый семантический слой. В регулируемых средах управление не является второстепенным вопросом — это механизм, с помощью которого доверие, подотчетность и объяснимость обеспечиваются в масштабе всей компании.
Заключение
Графы знаний — это не недавнее изобретение и не побочный эффект современного ИИ. Это способ организации знаний, позволяющий обмениваться смыслом, накапливать доказательства и сохранять ясность рассуждений по мере развития понимания. Разделяя теорию (онтологии), примеры (контролируемые словари) и доказательства (данные наблюдений), графы знаний позволяют создавать системы, которые делают больше, чем просто хранят факты — они поддерживают открытие, объяснение, повторное использование и доверие.
Задолго до появления крупных языковых моделей здравоохранение вкладывало значительные средства в определение общих понятий, каталогизацию окружающего мира и стандартизацию способов документирования и оценки наблюдений. Со временем эти методы создали плотные, взаимосвязанные структуры знаний, которые можно было расширять, запрашивать и анализировать по мере появления новых открытий. Современные системы искусственного интеллекта обладают мощным потенциалом именно потому, что они теперь строятся на основе этого фундамента, а не потому, что они его заменяют.
В следующей части этой серии я более подробно рассмотрю, как здравоохранение стало мировым лидером по зрелости графов знаний. Эта история включает в себя регуляторное давление, доконкурентное сотрудничество, государственное финансирование обмена знаниями и раннюю приверженность открытым стандартам. В заключительной части я полностью отойду от здравоохранения и рассмотрю, чему могут научиться другие отрасли (финансы, политика, производство, энергетика и другие) на этом пути, пытаясь создать собственные системы, готовые к использованию ИИ.
Главный тезис прост: прогресс в масштабах зависит не столько от более совершенных моделей, сколько от лучшей структуры. Здравоохранение усвоило этот урок на раннем этапе. Теперь другие вынуждены усваивать его быстро.
Об авторе: Стив Хедден — руководитель отдела управления продуктами в TopQuadrant, где он возглавляет стратегию развития EDG, платформы для управления графами знаний и метаданными. Его работа сосредоточена на объединении корпоративного управления данными и искусственного интеллекта посредством онтологий, таксономий и семантических технологий. Стив регулярно пишет и выступает на темы графов знаний и меняющейся роли семантики в системах искусственного интеллекта.
Библиография
Аль-Хатиб, Хасан С. и др. «Пациентоцентричные графы знаний: обзор современных методов, проблем и приложений». Frontiers in Artificial Intelligence 7 (2024): 1388479.
Барабаши А.Л., Гульбахче Н., Лоскальцо Дж. Сетевая медицина: сетевой подход к изучению заболеваний человека. Nat Rev Genet. 2011 янв.;12(1):56-68. doi: 10.1038/nrg2918. PMID: 21164525; PMCID: PMC3140052.
Хагер, Томас. Десять лекарств: как растения, порошки и таблетки повлияли на историю медицины. Издательство Harry N. Abrams, 2019.
Айзексон, Уолтер. Взломщик кодов: Дженнифер Даудна, редактирование генов и будущее человечества. Simon & Schuster, 2021.
Кирш, Дональд Р., и Оги Огас. Охотники за лекарствами: Невероятное стремление к открытию новых медикаментов. Arcade, 2017.
Оливейра, Мигель А.П. и др. «Семантическое моделирование организационных знаний как основа для управления корпоративными данными 4.0 — применение к унифицированной модели клинических данных». Препринт arXiv:2311.02082 (2023).
Раджаби, Э.; Кафаи, С. Графы знаний и объяснимый ИИ в здравоохранении. Информация 2022, 13, 459. https://doi.org/10.3390/info13100459
Ян, Карл и др. «Обзор графов знаний для здравоохранения: ресурсы, приложения и перспективы». Препринт arXiv:2306.04802 (2023).
Йонг Чжан, Мин Шэн, Руи Чжоу, Е Ван, Гуанцзе Хань, Хань Чжан, Чуньсяо Син, Цзин Дун. «HKGB: Инклюзивная, расширяемая, интеллектуальная, полуавтоматически создаваемая структура графа знаний для здравоохранения с учетом опыта врачей». Обработка и управление информацией (2020). https://doi.org/10.1016/j.ipm.2020.102324.
Источник: towardsdatascience.com























