Схема работы DeepPolisher: сборка гаплотипов и трансформатор для улучшения ДНК-данных.

Высокоточная доработка генома с помощью DeepPolisher: укрепление основ геномных исследований.

c9f6dc3092c486ac8047c8a56d0362a3

DeepPolisher — это новый инструмент глубокого обучения, который значительно повышает точность сборки генома за счет точной коррекции ошибок на уровне оснований, и недавно он сыграл ключевую роль в улучшении эталонного пангенома человека.

Быстрые ссылки

Ключ к пониманию наследственности, болезней и эволюции лежит в геноме, который закодирован нуклеотидами (то есть основаниями A, T, G и C). Секвенаторы ДНК могут считывать эти нуклеотиды, но сделать это точно и в больших масштабах сложно из-за очень малого размера пар оснований. Однако, чтобы раскрыть тайны, скрытые в геноме, мы должны иметь возможность собрать эталонный геном, максимально приближенный к идеальному.

Ошибки при сборке генома могут ограничивать методы, используемые для идентификации генов и белков, и могут привести к тому, что последующие диагностические процессы пропустят варианты, вызывающие заболевания. При сборке генома один и тот же геном секвенируется много раз, что позволяет итеративно исправлять ошибки. Тем не менее, учитывая, что человеческий геном состоит из 3 миллиардов нуклеотидов, даже небольшая частота ошибок может означать большое общее количество ошибок и ограничивать полезность полученного генома.

Стремясь постоянно улучшать ресурсы для сборки генома, мы представляем DeepPolisher — метод сборки генома с открытым исходным кодом, разработанный нами в сотрудничестве с Институтом геномики Калифорнийского университета в Санта-Крузе. В нашей недавней статье «Высокоточная доработка сборки с помощью DeepPolisher», опубликованной в журнале Genome Research , мы описываем, как этот конвейер расширяет существующие методы для повышения точности сборки генома. DeepPolisher снижает количество ошибок в сборке на 50% и количество ошибок вставки или удаления («инделов») на 70%. Это особенно важно, поскольку ошибки инделов мешают идентификации генов.

Фон

Хотя существует несколько способов измерения ДНК, большинство из них обычно включают в себя фиксацию процесса копирования ДНК. Один из методов заключается в присоединении молекул-меток разных цветов к раздельным нуклеотидам-строительным блокам и наблюдении за процессом добавления каждого из них к копируемой молекуле ДНК. Механизм копирования ДНК всегда копирует нить в определенной ориентации, поэтому, хотя информация избыточно кодируется на обеих нитях, считываются только нуклеотиды с одной нити за раз. Идентификация нуклеотидов требует детекторов, способных различать отдельные молекулы, что ограничивает точность измерений.

Одна из прорывных технологий, разработанная компанией Illumina для масштабирования этого метода, копирует одну молекулу секвенируемой ДНК в кластер идентичных копий. Затем она отслеживает синхронное копирование кластера, тем самым увеличивая сигнал для каждой нуклеотидной основы. Однако, поскольку невозможно гарантировать идеальное синхронное копирование кластера, он может рассинхронизироваться, в результате чего сигналы от разных оснований смешиваются, что ограничивает длину ДНК, измеряемой этим методом, несколькими сотнями нуклеотидов.

Хотя эти последовательности (называемые «ридами») короткие, они все же полезны для анализа. Сравнивая их с эталонным геномом, то есть с существующей картой генома вида, который необходимо секвенировать, можно сопоставить многие короткие риды с этим эталоном, тем самым создавая более полный геном исследуемого организма. Затем его можно сравнить с эталоном, чтобы лучше понять, как изменяется геном исследуемого организма.

DeepPolisher-1-Genome

Геном человека состоит из двух нитей, которые избыточно кодируют информацию ( слева ), организованных в хромосомы, при этом от каждого родителя наследуется одна полная копия ( справа ). ( Изображения предоставлены NHGRI )

Даже с усовершенствованными технологиями секвенирования сохраняется ряд проблем. Во-первых, этот метод основан на наличии надежного референсного генома, создание которого само по себе чрезвычайно сложно. Даже при наличии такого референса некоторые участки генома больше похожи на другие, что затрудняет их уверенное сопоставление с референсом.

Для решения этих проблем ученые разработали процессы, позволяющие секвенировать отдельные молекулы, что дает возможность считывать десятки тысяч нуклеотидов. Первоначально этот процесс имел неприемлемо высокий уровень ошибок (~10%). Эта проблема была решена, когда компания Pacific Biosciences разработала способ секвенирования одной и той же молекулы в несколько этапов, снизив уровень ошибок до 1%, аналогично методам секвенирования коротких фрагментов. Google и Pacific Biosciences совместно продемонстрировали это на примере генома человека.

Наша команда пошла дальше, разработав DeepConsensus, который использует преобразователь последовательностей для более точного построения правильной последовательности из исходных оснований, подверженных ошибкам. Сегодня Pacific Biosciences использует DeepConsensus на своих секвенаторах длинных прочтений, чтобы снизить частоту ошибок до менее чем 0,1%. Хотя эта частота ошибок значительно лучше, чем у предыдущих передовых методов, достижение точности, необходимой для построения нового, практически идеального эталонного генома, требует объединения прочтений последовательностей из нескольких молекул ДНК одного и того же индивидуума для дальнейшей коррекции оставшихся ошибок.

ДипПолишер

Здесь на помощь приходит DeepPolisher. Адаптированный из DeepConsensus, DeepPolisher использует архитектуру Transformer, обученную на геноме линии клеток человека, предоставленной проекту Personal Genomes Project. Этот эталонный геном был исчерпывающе охарактеризован NIST и NHGRI и секвенирован с использованием множества различных технологий. Его полнота оценивается примерно в 100%, а точность — в 99,99999%. Это соответствует примерно 300–1000 общим ошибкам на 6 миллиардах нуклеотидов в геноме (две копии эталонного генома из 3 миллиардов нуклеотидов, унаследованные от каждого родителя).

Проведя секвенирование и сборку генома с помощью PacBio, мы можем выявить оставшиеся ошибки, а затем обучить модели их исправлять. Для обучения модель принимает во внимание секвенированные основания, их качество и то, насколько однозначно они соответствуют заданной части эталонной сборки. Во время обучения мы используем только хромосомы 1–19. Мы исключаем хромосомы 20–22, используя результаты на хромосомах 21 и 22 для выбора модели, и сообщаем о точности, используя хромосому 20.

DeepPolisher-2-Architecture

Архитектура DeepPolisher. Последовательности прочтений классифицируются по происхождению (так называемое «фазирование») и выравниваются по черновому варианту сборки генома. Входные каналы: информация о основаниях, сообщаемое секвенатором качество, качество картирования (способность однозначно размещать прочтения в сборке) и аннотации несовпадающих оснований. Эти данные передаются в преобразователь, работающий только с кодировщиком, который классифицирует ошибки в сборке и предлагает исправление, используемое для корректировки сборки.

Производительность

DeepPolisher уменьшает количество ошибок в сборке генома примерно вдвое, что в значительной степени обусловлено сокращением ошибок вставки-удаления («инделов»), которые уменьшаются более чем на 70 процентов. Сокращение этих типов ошибок особенно важно, поскольку вставленные или удаленные основания могут сдвигать рамку считывания гена, из-за чего программы аннотирования могут игнорировать этот ген при маркировке генома и скрывать его от отчетов в клиническом анализе или разработке лекарств.

Мы количественно оцениваем качество генома с помощью «Q-балла», который представляет собой десятичный логарифм вероятности ошибки в определенной позиции генома. Показатель Q30 означает 99,9% вероятности правильности, а Q60 — 99,9999% вероятности правильности основания. Для оценки улучшения DeepPolisher мы использовали данные секвенирования, применяемые для сборки новых геномов для Консорциума эталонных геномов человека (HPRC). Мы искали потенциальные ошибки в сборке, пытаясь выявить комбинации нуклеотидов, которые не встречаются при других методах секвенирования того же образца с использованием других технологий секвенирования. Проведя этот анализ в тех частях генома, для которых другой метод секвенирования не имеет систематических ошибок (доверительный регион), мы можем показать улучшение сборки в среднем с Q66,7 до Q70,1. Мы также демонстрируем улучшение для каждого отдельного образца, подвергнутого оценке.

DeepPolisher-3-Performance

Качество сборки до и после полировки для 180 образцов. Для каждого образца геном разделен по родительскому происхождению (копия генома, переданная отцом или матерью), обозначенному как гаплотип (Hap) 1 или 2, и оценено качество этих гаплотипов.

Развертывание

DeepPolisher уже используется для улучшения геномных ресурсов для научного сообщества. В мае HPRC объявил о выпуске второго релиза данных, который включал секвенированные сборки геномов 232 человек, что в пять раз больше, чем в первом релизе. Данные во втором релизе прошли дополнительную обработку с помощью DeepPolisher, что вдвое снизило количество ошибок в виде отдельных нуклеотидов и инсерций/делеций, в результате чего частота ошибок составила менее одной ошибки на полмиллиона собранных оснований.

Предоставляя DeepPolisher в качестве инструмента с открытым исходным кодом, мы стремимся сделать методы доступными для широкого сообщества. Работая с Консорциумом эталонных данных человеческого пангенома, мы помогаем ученым более точно диагностировать генетические заболевания у людей всех этнических групп.

Благодарности

В этом посте в блоге демонстрируется вклад Google в разработку DeepPolisher для повышения качества сборки геномов. Интеграция DeepPolisher в более широкий контекст создания высокоточных пангеномных эталонов включает в себя вклад почти 195 авторов из 68 различных организаций. Мы благодарим исследовательские группы Института геномики Калифорнийского университета в Санта-Круз (UCSC Genomics Institute, GI) под руководством профессора Бенедикта Патена и профессора Карен Мига за помощь в первичном анализе и определении направлений разработки DeepPolisher. Мы выражаем признательность Мире Масторас и Мобину Асри за руководство основным анализом и интеграцией DeepPolisher в конвейер генерации пангеномов. Мы благодарим технических специалистов Google: Пи-Чуан Чанга, Даниэля Э. Кука, Алексея Колесникова, Лукаса Брамбринка и Марию Наттестад. Мы благодарим Лиззи Дорфман, Дейла Вебстера и Кэтрин Чоу за стратегическое руководство, а также Моник Бруйетт за помощь в написании статьи.

    Источник: research.google

    ✅ Найденные теги: DeepPolisher, Высокоточная, Высокоточная Доработка, Геном, Геномные Исследования, исследования, новости

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Джефф Безос только что объявил о планах создания третьей мегагруппировки спутников — на этот раз для центров обработки данных.
    Комиссия по ценным бумагам и биржам (SEC) прекращает четырехлетнее расследование в отношении стартапа по производству электромобилей Faraday Future.
    ideipro logotyp
    Почему мир не перерабатывает больше ядерных отходов
    ideipro logotyp
    Брайан Хедден назначен со-заместителем декана по вопросам социальной и этической ответственности в сфере вычислительной техники.
    Компания Mistral AI запускает Forge, чтобы помочь компаниям создавать собственные модели искусственного интеллекта, бросая вызов гигантам облачных вычислений.
    Ученые зафиксировали ежегодный рост случаев самоповреждения среди подростков. Особенно пострадали девочки
    Скелет головы с подсвеченными нейронными связями мозга на черном фоне.
    Image Not Found
    Джефф Безос только что объявил о планах создания третьей мегагруппировки спутников — на этот раз для центров обработки данных.

    Джефф Безос только что объявил о планах создания третьей мегагруппировки спутников — на этот раз для центров обработки данных.

    «Космические центры обработки данных станут дополнением к наземной инфраструктуре». Джефф Безос нацелился на еще одно мегасозвездие. Фото: Джо Рэдл/Getty Images. Джефф Безос нацелился на еще одно мегасозвездие. Фото: Джо Рэдл/Getty Images. Настройки текста. Текст рассказа Размер Маленький…

    Мар 23, 2026
    Комиссия по ценным бумагам и биржам (SEC) прекращает четырехлетнее расследование в отношении стартапа по производству электромобилей Faraday Future.

    Комиссия по ценным бумагам и биржам (SEC) прекращает четырехлетнее расследование в отношении стартапа по производству электромобилей Faraday Future.

    Источник изображения: Faraday Future Как стало известно TechCrunch, Комиссия по ценным бумагам и биржам (SEC) завершила расследование в отношении стартапа по производству электромобилей Faraday Future, несмотря на то, что сотрудники SEC, занимавшиеся этим делом, еще в прошлом…

    Мар 23, 2026
    ideipro logotyp

    19 лучших электромобилей, которые появятся в 2026 году

    Мы ожидаем появления новых электромобилей от Rivian, Hyundai, Honda, BMW и новичка Slate, а также от других производителей. Вот электромобили, которые появятся в этом году и вызывают у нас наибольший интерес. Источник: www.wired.com ✅ Найденные теги: 19,…

    Мар 23, 2026
    Почему мир не перерабатывает больше ядерных отходов

    Почему мир не перерабатывает больше ядерных отходов

    Завод по переработке отработанного ядерного топлива в Ла-Аге (Франция) способен перерабатывать 1700 метрических тонн отработанного топлива в год. Abaca Press/Alamy Live News Перспектива использования мусора всегда меня завораживает. Будь то использованные батареи, солнечные панели или отработанное ядерное…

    Мар 23, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых