Image

Новая поисковая система по ДНК вносит порядок в Большие биологические данные

MetaGraph объединяет обширные архивы данных в поисковую систему для ученых, открывая новые горизонты биологических открытий

Изображение спиралей ДНК, окруженных светящимися точками.

В Интернете есть Google. Теперь у биологии есть метаграф. Подробнее об этом сегодня в Nature, поисковая система может быстро просматривать ошеломляющие объемы биологических данных, хранящихся в общедоступных хранилищах.

«Это огромное достижение», — говорит Райан Чихи, исследователь в области биокомпьютеров из Института Пастера в Париже. «Они установили новый стандарт» для анализа исходных биологических данных, включая последовательности ДНК, РНК и белков, из баз данных, которые могут содержать миллионы миллиардов букв ДНК, что составляет «петабазы» информации, больше записей, чем на всех веб-страницах в мире. Обширный индекс Google.

Хотя MetaGraph помечен как «Google для поиска ДНК», Чихи сравнивает этот инструмент с поисковой системой для YouTube, потому что задачи требуют больше вычислений требовательный. Точно так же, как поиск на YouTube позволяет найти каждое видео, в котором есть, скажем, красные шарики, даже если эти ключевые слова не указаны в названии, тегах или описании, MetaGraph может выявить генетические закономерности, скрытые глубоко в обширных наборах данных о последовательности, без необходимости предварительного аннотирования этих закономерностей.

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

«Это позволяет делать то, что невозможно сделать никаким другим способом», — говорит Чихи.

Индексация библиотеки life

Мотивация, стоящая за MetaGraph цель состояла в том, чтобы решить проблему доступности наборов данных для упорядочивания. За последние несколько десятилетий размер этих хранилищ стремительно увеличивался, но этот рост создал проблемы для ученых, использующих содержащиеся в них данные. Исходные данные для секвенирования фрагментированы, зашумлены и слишком многочисленны для прямого поиска. «Объем данных, как это ни парадоксально, является основным препятствием для их реального использования», — говорит Артем Бабаян, специалист по вычислительной биологии из Университета Торонто в Канаде.

По словам одного из авторов исследования, Андре Калеса, специалиста по биоинформатике из Швейцарского федерального технологического института (ETH) в Цюрихе, MetaGraph может помочь исследователям задавать биологические вопросы таким хранилищам, как Архив чтения последовательностей (SRA), общедоступная база данных, содержащая более 100 миллионов миллиардов данных. Буквы ДНК.

Они решили проблему с помощью математических «графиков», которые связывают перекрывающиеся фрагменты ДНК вместе, подобно предложениям, в которых одни и те же слова выстраиваются в ряд в указателе книг.

Исследователи объединили данные из семи государственных хранилищ данных, создав 18,8 миллиона уникальных наборов последовательностей ДНК и РНК и 210 миллиардов наборов аминокислотных последовательностей для всех групп организмов, включая вирусы, бактерии, грибы, растения и животные, включая человека. Они также разработали поисковую систему для этих последовательностей, в которой пользователи используют текстовые подсказки для поиска в этих интегрированных архивах необработанных данных.

— Это совершенно новый способ взаимодействия с этим массивом данных. данные», — говорит Калес. «Он сжат, но доступен на лету».

Чтобы продемонстрировать полезность MetaGraph, авторы исследования использовали его для сканирования 241 384 образцов микробиома кишечника человека на генетические признаки. индикаторы устойчивости к антибиотикам по всему миру, основанные на результатах работы, в которой использовалась более ранняя версия инструмента для отслеживания генов лекарственной устойчивости в штаммах бактерий, обитающих в системах метро крупных городских центров. Авторы говорят, что они провели анализ примерно за час на мощном компьютере.

Открытый путь к открытию

Метаграф — не единственный теперь доступен масштабный инструмент для поиска последовательностей.

Например, Чихи и Бабаян создали платформу под названием Logan, которая объединяет миллиарды коротких считываний последовательности для создания более длинных упорядоченных участков ДНК. Такая архитектура проектирования позволяет системе выявлять целые гены и их варианты в еще большем количестве считываний для секвенирования, чем это возможно с помощью MetaGraph, хотя и с определенными компромиссами. «У нас меньше функциональности, но больше производительности», — говорит Чихи.

Расширенный охват Logan помог исследователям обнаружить более 200 миллионов природных разновидностей фермента, расщепляющего пластик, который содержится в различных бактериях, грибах и насекомых, включая некоторые разновидности, которые работают даже лучше, чем ферменты, разработанные в лаборатории. Чихи и Бабаян сообщили о своих выводах в препринте, опубликованном в прошлом месяце.

Они и другие исследователи также использовали более ранний, более узкий инструмент поиска, предназначенный для хранилищ вирусной ДНК, чтобы выявить множество ранее недокументированных вирусов и вирусных группировок. загрязняющие вещества в инженерной Т-клеточной терапии для лечения рака.

По словам Бабаяна, такие открытия были бы невозможны без двух вещей: инструментов поиска с открытым исходным кодом, доступных на таких сайтах, как metagraph.ethz.ch и logan-search.org, а также общедоступные хранилища последовательности, к которым они подключаются. В условиях сокращения финансирования, угрожающего другим видам биологических баз данных, Бабаян подчеркивает, что эти поисковые инновации подчеркивают «критическую важность открытого обмена данными».

«Это ресурсы для продвижения научных исследований». прогресс во всем мире», — говорит Бабаян. «Они открывают совершенно новую область геномики в масштабе петабазы», и самые эффективные приложения еще впереди.

Эта статья воспроизводится с разрешения автора и была впервые опубликована 8 октября 2025 года.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
dummy-img
Следующим узким местом в развитии ИИ станут не модели, а способность агентов мыслить сообща.
Image Not Found
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
dummy-img

Взгляд на количественную генетику глазами гена

arXiv:2502.12831v3 Тип объявления: замена-кросс Аннотация: Моделирование эволюции непрерывного признака в биологической популяции — одна из старейших проблем эволюционной биологии, которая привела к появлению количественной генетики. С недавним развитием методов GWAS стало крайне важно связать эволюцию распределения признака…

Апр 21, 2026
dummy-img

Взгляд на количественную генетику глазами гена

arXiv:2502.12831v3 Тип объявления: замена-кросс Аннотация: Моделирование эволюции непрерывного признака в биологической популяции — одна из старейших проблем эволюционной биологии, которая привела к появлению количественной генетики. С недавним развитием методов GWAS стало крайне важно связать эволюцию распределения признака…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых