Статистические данные, количественно определяющие предрасположенность человека к таким заболеваниям, как диабет и рак, могут быть подвергнуты обратному инжинирингу для выявления лежащих в их основе генетических данных, что вызывает опасения по поводу конфиденциальности.
Анализ генетических данных позволяет оценить риск развития определенных заболеваний. Научная фотобиблиотека / Alamy
Генетические показатели риска, суммирующие вероятность развития у человека определенных заболеваний, могут быть использованы с помощью математических приемов для выявления скрытых деталей его ДНК.
Теоретически этот метод может быть использован страховыми компаниями для восстановления генетических данных из сводного геномного отчета, что позволит выявить риски для здоровья, не раскрытые пациентом. В качестве альтернативы, людей, анонимно делящихся своими результатами, можно будет идентифицировать путем извлечения генетических данных и запроса к общедоступным генеалогическим базам данных.
Полигенные показатели риска измеряют влияние десятков или тысяч отдельных буквенных вариаций в геноме, известных как однонуклеотидные полиморфизмы (SNP). Используемые исследователями и компаниями, занимающимися ДНК-тестированием, для обобщения потенциальных рисков для здоровья, эти показатели иногда публикуются, например, людьми, обращающимися за советом по интерпретации полученных результатов.
Расшифровка полигенного показателя риска подобна попытке вычислить номер телефона, зная только, что сумма цифр равна 52. Это пример математической задачи о рюкзаке, известной своей вычислительной сложностью. Из-за этого такие показатели рассматриваются как представляющие низкий риск для конфиденциальности.
Однако каждое значение SNP, используемое в оценке риска, умножается на чрезвычайно точный вес — до 16 знаков после запятой — который отражает его вклад в общий риск заболевания. Это делает модели с малым риском уязвимыми для атак.

«Поскольку окончательный полигенный показатель риска ограничен конечным числом способов его получения и статистически вероятным расположением лежащих в его основе однонуклеотидных полиморфизмов, его можно определить с высокой степенью точности», — говорит Гамзе Гюрсой из Колумбийского университета в Нью-Йорке.
Гюрсой и Кирилл Никитин, также из Колумбийского университета, провели 298 полигенных моделей риска, использующих не более 50 однонуклеотидных полиморфизмов (SNP), на генетических данных 2353 человек. Работая в обратном направлении, они рассчитали все возможные геномы, которые могли бы дать каждый заданный показатель, отфильтровав те, которые содержат много редких мутаций.
Поскольку один SNP может использоваться несколькими полигенными моделями риска, Гюрсой и Никитин смогли выстроить свою атаку в цепочку, используя SNP, выявленные в меньших моделях, для решения задач в более крупных моделях.
Им удалось восстановить генотип донора с точностью 94,6%, правильно предсказав 2450 SNP на каждого человека. Тесты показали, что 27 SNP достаточно для идентификации человека в пуле из полумиллиона образцов, а членов семьи можно было предсказать с точностью до 90%. Лица африканского и восточноазиатского происхождения были идентифицированы легче, поскольку они менее представлены в генетических базах данных.
По словам Гюрсоя, 447 небольших высокоточных моделей в общедоступной базе данных полигенных оценок уязвимы для этой атаки.
«Мы хотели подчеркнуть, что риск низок, но при [некоторых условиях] утечка все же может иметь место», — говорит Гюрсой. «Мы должны учитывать это при разработке исследовательских проектов, особенно если мы работаем с уязвимыми группами населения».
Ин Ван из Массачусетской больницы общего профиля говорит, что существующие меры защиты данных и вычислительные узкие места ограничивают риск использования полигенных показателей риска таким образом. «Результаты могут служить предостережением о том, что небольшие модели следует рассматривать как потенциально конфиденциальные данные при составлении клинических отчетов и обсуждении информированного согласия», — говорит она.
bioRxiv DOI: 10.64898/2026.02.16.706191
Источник: www.newscientist.com






















