arXiv:2603.15080v3 Тип объявления: замена-перекрестное аннотирование: Биомедицинские знания фрагментированы по разрозненным базам данных — Reactome для метаболических путей, STRING для белковых взаимодействий, ClinicalTrials.gov для реестров исследований, DrugBank для словарей лекарственных препаратов, DGIdb для взаимодействий лекарств и генов, SIDER для побочных эффектов. Мы представляем три графа биомедицинских знаний с открытым исходным кодом — Pathways KG (118 686 узлов, 834 785 ребер из 5 источников), Clinical Trials KG (7 774 446 узлов, 26 973 997 ребер из 5 источников) и Drug Interactions KG (32 726 узлов, 191 970 ребер из 3 источников) — построенные на основе Samyama, высокопроизводительной графовой базы данных, написанной на Rust. Наш вклад состоит из трех частей. Во-первых, мы описываем воспроизводимый шаблон ETL для построения крупномасштабных графов знаний из разнородных общедоступных источников данных, включающий дедупликацию данных между источниками, пакетную загрузку (с использованием Python Cypher и Rust) и переносимый экспорт снимков. Во-вторых, мы демонстрируем федерацию между графами знаний: загрузка всех трех снимков в один экземпляр графа позволяет выполнять объединения на основе свойств между наборами данных. В-третьих, мы представляем генерацию MCP-сервера на основе схемы для доступа к агентам LLM, оцененную на новом бенчмарке BiomedQA (40 вопросов по фармакологии): специализированные MCP-инструменты достигают точности 98% по сравнению с 85% для текстового преобразования в Cypher с учетом схемы и 75% для автономного GPT-4o, без ошибок схемы. Все источники данных имеют открытую лицензию. Объединенный федеративный граф (7,9 млн узлов, 28 млн ребер) загружается примерно за 3 минуты на стандартном облачном оборудовании, при этом запросы к одному графу выполняются за 80-100 мс, а объединения между графами — за 1-4 секунды.
Источник: arxiv.org






















