Image

Новая поисковая система по ДНК вносит порядок в Большие биологические данные

MetaGraph объединяет обширные архивы данных в поисковую систему для ученых, открывая новые горизонты биологических открытий

Изображение спиралей ДНК, окруженных светящимися точками.

В Интернете есть Google. Теперь у биологии есть метаграф. Подробнее об этом сегодня в Nature, поисковая система может быстро просматривать ошеломляющие объемы биологических данных, хранящихся в общедоступных хранилищах.

«Это огромное достижение», — говорит Райан Чихи, исследователь в области биокомпьютеров из Института Пастера в Париже. «Они установили новый стандарт» для анализа исходных биологических данных, включая последовательности ДНК, РНК и белков, из баз данных, которые могут содержать миллионы миллиардов букв ДНК, что составляет «петабазы» информации, больше записей, чем на всех веб-страницах в мире. Обширный индекс Google.

Хотя MetaGraph помечен как «Google для поиска ДНК», Чихи сравнивает этот инструмент с поисковой системой для YouTube, потому что задачи требуют больше вычислений требовательный. Точно так же, как поиск на YouTube позволяет найти каждое видео, в котором есть, скажем, красные шарики, даже если эти ключевые слова не указаны в названии, тегах или описании, MetaGraph может выявить генетические закономерности, скрытые глубоко в обширных наборах данных о последовательности, без необходимости предварительного аннотирования этих закономерностей.

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

«Это позволяет делать то, что невозможно сделать никаким другим способом», — говорит Чихи.

Индексация библиотеки life

Мотивация, стоящая за MetaGraph цель состояла в том, чтобы решить проблему доступности наборов данных для упорядочивания. За последние несколько десятилетий размер этих хранилищ стремительно увеличивался, но этот рост создал проблемы для ученых, использующих содержащиеся в них данные. Исходные данные для секвенирования фрагментированы, зашумлены и слишком многочисленны для прямого поиска. «Объем данных, как это ни парадоксально, является основным препятствием для их реального использования», — говорит Артем Бабаян, специалист по вычислительной биологии из Университета Торонто в Канаде.

По словам одного из авторов исследования, Андре Калеса, специалиста по биоинформатике из Швейцарского федерального технологического института (ETH) в Цюрихе, MetaGraph может помочь исследователям задавать биологические вопросы таким хранилищам, как Архив чтения последовательностей (SRA), общедоступная база данных, содержащая более 100 миллионов миллиардов данных. Буквы ДНК.

Они решили проблему с помощью математических «графиков», которые связывают перекрывающиеся фрагменты ДНК вместе, подобно предложениям, в которых одни и те же слова выстраиваются в ряд в указателе книг.

Исследователи объединили данные из семи государственных хранилищ данных, создав 18,8 миллиона уникальных наборов последовательностей ДНК и РНК и 210 миллиардов наборов аминокислотных последовательностей для всех групп организмов, включая вирусы, бактерии, грибы, растения и животные, включая человека. Они также разработали поисковую систему для этих последовательностей, в которой пользователи используют текстовые подсказки для поиска в этих интегрированных архивах необработанных данных.

— Это совершенно новый способ взаимодействия с этим массивом данных. данные», — говорит Калес. «Он сжат, но доступен на лету».

Чтобы продемонстрировать полезность MetaGraph, авторы исследования использовали его для сканирования 241 384 образцов микробиома кишечника человека на генетические признаки. индикаторы устойчивости к антибиотикам по всему миру, основанные на результатах работы, в которой использовалась более ранняя версия инструмента для отслеживания генов лекарственной устойчивости в штаммах бактерий, обитающих в системах метро крупных городских центров. Авторы говорят, что они провели анализ примерно за час на мощном компьютере.

Открытый путь к открытию

Метаграф — не единственный теперь доступен масштабный инструмент для поиска последовательностей.

Например, Чихи и Бабаян создали платформу под названием Logan, которая объединяет миллиарды коротких считываний последовательности для создания более длинных упорядоченных участков ДНК. Такая архитектура проектирования позволяет системе выявлять целые гены и их варианты в еще большем количестве считываний для секвенирования, чем это возможно с помощью MetaGraph, хотя и с определенными компромиссами. «У нас меньше функциональности, но больше производительности», — говорит Чихи.

Расширенный охват Logan помог исследователям обнаружить более 200 миллионов природных разновидностей фермента, расщепляющего пластик, который содержится в различных бактериях, грибах и насекомых, включая некоторые разновидности, которые работают даже лучше, чем ферменты, разработанные в лаборатории. Чихи и Бабаян сообщили о своих выводах в препринте, опубликованном в прошлом месяце.

Они и другие исследователи также использовали более ранний, более узкий инструмент поиска, предназначенный для хранилищ вирусной ДНК, чтобы выявить множество ранее недокументированных вирусов и вирусных группировок. загрязняющие вещества в инженерной Т-клеточной терапии для лечения рака.

По словам Бабаяна, такие открытия были бы невозможны без двух вещей: инструментов поиска с открытым исходным кодом, доступных на таких сайтах, как metagraph.ethz.ch и logan-search.org, а также общедоступные хранилища последовательности, к которым они подключаются. В условиях сокращения финансирования, угрожающего другим видам биологических баз данных, Бабаян подчеркивает, что эти поисковые инновации подчеркивают «критическую важность открытого обмена данными».

«Это ресурсы для продвижения научных исследований». прогресс во всем мире», — говорит Бабаян. «Они открывают совершенно новую область геномики в масштабе петабазы», и самые эффективные приложения еще впереди.

Эта статья воспроизводится с разрешения автора и была впервые опубликована 8 октября 2025 года.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.
Какой язык выбрать программисту в 2026 году?
Vantage Markets представит торговые решения на Blockchain Forum 2026
Моделирование данных для инженеров-аналитиков: полное руководство
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.
Ученые говорят: Клонировать
dummy-img
Как максимально эффективно использовать возможности коворкинга в Claude
Image Not Found
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026
Vantage Markets представит торговые решения на Blockchain Forum 2026

Vantage Markets представит торговые решения на Blockchain Forum 2026

14–15 апреля 2026 года в Москве, в Крокус Экспо, пройдет Blockchain Forum 2026 — одно из ключевых событий региона для профессионалов в сфере криптовалют, трейдинга и блокчейн-технологий. По мере того как индустрия продолжает развиваться в направлении цифровых…

Апр 20, 2026
Моделирование данных для инженеров-аналитиков: полное руководство

Моделирование данных для инженеров-аналитиков: полное руководство

Лучшие модели данных затрудняют постановку неправильных вопросов и упрощают ответы на правильные. Делиться Ваша модель данных — это не технические характеристики. Это мышление с точки зрения бизнеса. Рассматривайте её как план всей вашей аналитической системы. Если план…

Апр 20, 2026
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

Графическое резюме исследования © Михаил Медведев / Институт органической химии имени Н.Д. Зелинского РАН. Исследователи показали, что широко используемые методы квантовой химии могут не различать некоторые варианты распределения электронов в молекулах, из-за чего допускают ошибки при моделировании…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых