Image

Новая поисковая система по ДНК вносит порядок в Большие биологические данные

MetaGraph объединяет обширные архивы данных в поисковую систему для ученых, открывая новые горизонты биологических открытий

Изображение спиралей ДНК, окруженных светящимися точками.

В Интернете есть Google. Теперь у биологии есть метаграф. Подробнее об этом сегодня в Nature, поисковая система может быстро просматривать ошеломляющие объемы биологических данных, хранящихся в общедоступных хранилищах.

«Это огромное достижение», — говорит Райан Чихи, исследователь в области биокомпьютеров из Института Пастера в Париже. «Они установили новый стандарт» для анализа исходных биологических данных, включая последовательности ДНК, РНК и белков, из баз данных, которые могут содержать миллионы миллиардов букв ДНК, что составляет «петабазы» информации, больше записей, чем на всех веб-страницах в мире. Обширный индекс Google.

Хотя MetaGraph помечен как «Google для поиска ДНК», Чихи сравнивает этот инструмент с поисковой системой для YouTube, потому что задачи требуют больше вычислений требовательный. Точно так же, как поиск на YouTube позволяет найти каждое видео, в котором есть, скажем, красные шарики, даже если эти ключевые слова не указаны в названии, тегах или описании, MetaGraph может выявить генетические закономерности, скрытые глубоко в обширных наборах данных о последовательности, без необходимости предварительного аннотирования этих закономерностей.

О поддержке научной журналистики

Если вам понравилась эта статья, подумайте о том, чтобы поддержать нашу журналистику, отмеченную наградами, подписавшись на нее. Приобретая подписку, вы помогаете обеспечить будущее впечатляющих историй об открытиях и идеях, формирующих наш современный мир.

«Это позволяет делать то, что невозможно сделать никаким другим способом», — говорит Чихи.

Индексация библиотеки life

Мотивация, стоящая за MetaGraph цель состояла в том, чтобы решить проблему доступности наборов данных для упорядочивания. За последние несколько десятилетий размер этих хранилищ стремительно увеличивался, но этот рост создал проблемы для ученых, использующих содержащиеся в них данные. Исходные данные для секвенирования фрагментированы, зашумлены и слишком многочисленны для прямого поиска. «Объем данных, как это ни парадоксально, является основным препятствием для их реального использования», — говорит Артем Бабаян, специалист по вычислительной биологии из Университета Торонто в Канаде.

По словам одного из авторов исследования, Андре Калеса, специалиста по биоинформатике из Швейцарского федерального технологического института (ETH) в Цюрихе, MetaGraph может помочь исследователям задавать биологические вопросы таким хранилищам, как Архив чтения последовательностей (SRA), общедоступная база данных, содержащая более 100 миллионов миллиардов данных. Буквы ДНК.

Они решили проблему с помощью математических «графиков», которые связывают перекрывающиеся фрагменты ДНК вместе, подобно предложениям, в которых одни и те же слова выстраиваются в ряд в указателе книг.

Исследователи объединили данные из семи государственных хранилищ данных, создав 18,8 миллиона уникальных наборов последовательностей ДНК и РНК и 210 миллиардов наборов аминокислотных последовательностей для всех групп организмов, включая вирусы, бактерии, грибы, растения и животные, включая человека. Они также разработали поисковую систему для этих последовательностей, в которой пользователи используют текстовые подсказки для поиска в этих интегрированных архивах необработанных данных.

— Это совершенно новый способ взаимодействия с этим массивом данных. данные», — говорит Калес. «Он сжат, но доступен на лету».

Чтобы продемонстрировать полезность MetaGraph, авторы исследования использовали его для сканирования 241 384 образцов микробиома кишечника человека на генетические признаки. индикаторы устойчивости к антибиотикам по всему миру, основанные на результатах работы, в которой использовалась более ранняя версия инструмента для отслеживания генов лекарственной устойчивости в штаммах бактерий, обитающих в системах метро крупных городских центров. Авторы говорят, что они провели анализ примерно за час на мощном компьютере.

Открытый путь к открытию

Метаграф — не единственный теперь доступен масштабный инструмент для поиска последовательностей.

Например, Чихи и Бабаян создали платформу под названием Logan, которая объединяет миллиарды коротких считываний последовательности для создания более длинных упорядоченных участков ДНК. Такая архитектура проектирования позволяет системе выявлять целые гены и их варианты в еще большем количестве считываний для секвенирования, чем это возможно с помощью MetaGraph, хотя и с определенными компромиссами. «У нас меньше функциональности, но больше производительности», — говорит Чихи.

Расширенный охват Logan помог исследователям обнаружить более 200 миллионов природных разновидностей фермента, расщепляющего пластик, который содержится в различных бактериях, грибах и насекомых, включая некоторые разновидности, которые работают даже лучше, чем ферменты, разработанные в лаборатории. Чихи и Бабаян сообщили о своих выводах в препринте, опубликованном в прошлом месяце.

Они и другие исследователи также использовали более ранний, более узкий инструмент поиска, предназначенный для хранилищ вирусной ДНК, чтобы выявить множество ранее недокументированных вирусов и вирусных группировок. загрязняющие вещества в инженерной Т-клеточной терапии для лечения рака.

По словам Бабаяна, такие открытия были бы невозможны без двух вещей: инструментов поиска с открытым исходным кодом, доступных на таких сайтах, как metagraph.ethz.ch и logan-search.org, а также общедоступные хранилища последовательности, к которым они подключаются. В условиях сокращения финансирования, угрожающего другим видам биологических баз данных, Бабаян подчеркивает, что эти поисковые инновации подчеркивают «критическую важность открытого обмена данными».

«Это ресурсы для продвижения научных исследований». прогресс во всем мире», — говорит Бабаян. «Они открывают совершенно новую область геномики в масштабе петабазы», и самые эффективные приложения еще впереди.

Эта статья воспроизводится с разрешения автора и была впервые опубликована 8 октября 2025 года.

✅ Найденные теги: Новая, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых