Абстрактная визуализация нейронной сети с синими и фиолетовыми узлами на темном фоне.

Использование ИИ для выявления генетических вариантов в опухолях с помощью DeepSomatic

965d3881cfd460f47eeeda5afee4ff02

DeepSomatic — это инструмент на основе искусственного интеллекта, который выявляет связанные с раком мутации в генетической последовательности опухоли, помогая точно определить причину развития рака.

Быстрые ссылки

Рак — это, по сути, генетическое заболевание, при котором нарушаются генетические механизмы контроля деления клеток. Существует множество типов рака, и каждый из них представляет собой уникальную проблему, поскольку может иметь различные генетические основы. Мощным методом изучения рака и важным шагом на пути к разработке плана лечения является выявление генетических мутаций в опухолевых клетках. Действительно, в настоящее время врачи часто секвенируют геномы биопсированных опухолевых клеток, чтобы разработать планы лечения, которые целенаправленно нарушают рост данного вида рака.

В сотрудничестве с партнерами из Института геномики Калифорнийского университета в Санта-Крузе и другими федеральными и академическими исследователями, в нашей новой статье «DeepSomatic: Точное обнаружение соматических малых вариантов для различных технологий секвенирования», опубликованной в журнале Nature Biotechnology, представлен инструмент, использующий машинное обучение для более точного выявления генетических вариантов в опухолевых клетках, чем существующие методы. DeepSomatic — это гибкая модель, использующая сверточные нейронные сети для идентификации опухолевых вариантов. Она работает с данными со всех основных платформ секвенирования, для различных типов обработки образцов и может расширять свои знания на типы рака, не включенные в обучение.

Мы сделали как инструмент, так и созданный нами высококачественный обучающий набор данных общедоступными для исследовательского сообщества. Эта работа является частью более широких усилий Google по разработке методов искусственного интеллекта для понимания рака и оказания помощи ученым в его лечении, включая анализ маммографических изображений для скрининга рака молочной железы, КТ-сканирований для скрининга рака легких, а также партнерство, направленное на использование ИИ для продвижения исследований гинекологических онкологических заболеваний. Мы надеемся ускорить исследования рака и продвинуться к цели персонализированной медицины.

Генетическая изменчивость, приобретенная после рождения.

Секвенирование генома используется в научных исследованиях и медицинских клиниках для выявления генетических вариаций между отдельным человеком и эталонным геномом человека. Различить реальные варианты и простые ошибки, допущенные в процессе секвенирования, — сложная задача. Именно поэтому почти десять лет назад исследовательский центр Google представил DeepVariant для выявления унаследованных вариантов, также называемых герминальными вариантами, которые передаются от родителей и обнаруживаются во всех клетках организма.

Генетика рака гораздо сложнее. Зачастую причиной рака являются варианты генов, приобретенные после рождения. Воздействие факторов окружающей среды, повреждающих ДНК, таких как ультрафиолетовое излучение или химические канцерогены, а также случайные ошибки, возникающие во время репликации ДНК, могут приводить к тому, что клетки организма, известные как соматические клетки, приобретают новые варианты генов. Иногда эти приобретенные варианты изменяют нормальное поведение клеток и могут вызывать их репликацию, когда этого делать не следует. Этот процесс лежит в основе начального развития рака, а также его последующего прогрессирования до более быстрорастущих и инвазивных стадий.

Выявление вариантов, специфичных для некоторых соматических клеток человека, гораздо сложнее, чем выявление унаследованных вариантов. Опухолевые клетки могут содержать разнообразный набор приобретенных вариантов с различной частотой, а частота ошибок секвенирования может быть выше, чем частота присутствия соматического варианта в образце.

Обучение DeepSomatic распознаванию генетических вариаций в опухолевых клетках

Мы разработали DeepSomatic для решения этих задач и точного выявления соматических вариантов. В большинстве клинических и исследовательских условий рак изучается путем секвенирования опухолевых клеток, полученных при биопсии, а также нормальных клеток, не затронутых ростом опухоли и содержащих более типичные наследственные генетические вариации. DeepSomatic обучен выявлять вариации, наблюдаемые в опухолевых клетках, которые не являются наследственными вариантами. Эти типы вариаций могут дать критически важную информацию о том, какие вариации стимулируют рост опухоли. DeepSomatic также способен выявлять соматические вариации в режиме анализа только опухолевых клеток, когда последовательность неопухолевых клеток недоступна, например, при раке крови, таком как лейкемия, где трудно получить только нормальные клетки из образца крови. Возможность расширения до различных типов сценариев использования, соответствующих распространенным методам изучения рака врачами и исследователями, делает DeepSomatic применимым во многих исследовательских и клинических условиях.

Как и наш предыдущий инструмент, DeepVariant, модель DeepSomatic работает следующим образом: сначала данные генетического секвенирования преобразуются в набор изображений. Изображения представляют собой данные секвенирования, выравнивание вдоль хромосомы, качество выходных данных и другие переменные. Затем DeepSomatic использует свою сверточную нейронную сеть на данных опухолевых и нераковых клеток, чтобы различить референсный геном, нераковые герминальные варианты у данного индивидуума и соматические варианты, вызванные раком в опухоли, отбрасывая при этом вариации, вызванные небольшими ошибками, возникшими в процессе секвенирования. В результате получается список связанных с раком вариантов, или мутаций.

Обзор DeepSomatic

DeepSomatic выявляет варианты генома, вызывающие рак. Сначала данные секвенирования опухолевых и нераковых клеток преобразуются в изображение. DeepSomatic пропускает эти изображения через свою сверточную нейронную сеть, чтобы различить референсный геном, нераковые герминальные варианты генома у данного индивидуума и соматические варианты, вызывающие рак в опухоли, отбрасывая при этом вариации, вызванные небольшими ошибками секвенирования. В результате получается список вариантов генома, вызывающих рак, или мутаций.

Для обучения точных моделей, способных выявлять генетические вариации для различных типов рака, необходимы всесторонние, высококачественные данные и эталонные наборы. Для этой работы мы создали новый обучающий и оценочный набор данных для обнаружения вариантов в опухолевых клетках. Совместно с нашими партнерами из Калифорнийского университета в Санта-Крузе и Национального института рака мы секвенировали опухолевые клетки и сопутствующие нормальные клетки из четырех образцов рака молочной железы и двух образцов рака легких из исследовательских клеточных линий.

График скорости мутаций

Эталонный набор данных, использованный для обучения DeepSomatic. Каждый столбик показывает количество мутаций, обнаруженных в четырех образцах рака молочной железы и двух образцах рака легких, при этом цвет обозначает различные типы мутаций. При раке легких наблюдается заметный тип мутаций, вызванных токсинами окружающей среды, включая SBS4, показанный зеленым цветом. Но даже один и тот же тип рака демонстрирует большие различия в своей мутационной сигнатуре. Эти индивидуальные различия могут предсказать, насколько хорошо он будет реагировать на лечение.

Для создания точного обучающего набора данных мы провели полногеномное секвенирование этих шести образцов с использованием трех ведущих платформ: секвенирования коротких прочтений Illumina, секвенирования длинных прочтений PacBio и секвенирования длинных прочтений Oxford Nanopore Technology. Результаты, полученные со всех трех платформ, были объединены для устранения ошибок, специфичных для каждой платформы, и создания единого, точного эталонного набора данных, который мы называем набором данных для оценки длинных прочтений в соответствии со стандартами онкологии (CASTLE), для оценки генетического разнообразия в опухолевых и нормальных клетках.

Проверка способности DeepSomatic выявлять варианты генов, связанные с раком.

Мы обучили DeepSomatic на трех геномах рака молочной железы и двух геномах рака легких из эталонного набора данных CASTLE. Затем мы протестировали производительность DeepSomatic несколькими способами, в том числе на единственном геноме рака молочной железы, который не был включен в обучающие данные, и на хромосоме 1 из каждого образца, которую мы также исключили из обучения.

Результаты показывают, что модели DeepSomatic, разработанные для каждой из трех основных платформ секвенирования, показали лучшие результаты, чем другие методы, выявив больше вариантов опухолей с более высокой точностью. Для сравнения на данных секвенирования коротких прочтений использовались инструменты SomaticSniper, MuTect2 и Strelka2 (причем SomaticSniper был разработан специально для однонуклеотидных вариантов, или SNV). Для данных секвенирования длинных прочтений мы сравнивали результаты с ClairS, моделью глубокого обучения, обученной на синтетических данных.

В ходе наших тестов DeepSomatic выявил 329 011 соматических вариантов в шести референсных клеточных линиях и седьмом сохраненном образце. DeepSomatic особенно хорошо справляется с выявлением раковых вариантов, включающих вставки и делеции («инделы») генетического кода. Для таких типов вариантов DeepSomatic существенно повысил показатель F1-меры, сбалансированную меру того, насколько хорошо модель находит истинные варианты в образце (полнота) и при этом не допускает ложных срабатываний (точность). На данных секвенирования Illumina следующий лучший метод показал 80% точности при выявлении инделов, в то время как DeepSomatic — 90%. На данных секвенирования Pacific Biosciences следующий лучший метод показал менее 50% точности при выявлении инделов, а DeepSomatic — более 80%.

График точности определения рака молочной железы

Результаты DeepSomatic ( фиолетовый цвет ) для образца рака молочной железы, широко используемого в исследованиях, в сравнении с другими инструментами. Несколько программных инструментов идентифицируют варианты раковых клеток в данных Illumina, в то время как для данных секвенирования длинных прочтений, полученных PacBio и Oxford Nanopore Technologies, существует только одна альтернатива ( розовый цвет ). Показатель F1 измеряет количество обнаруженных вариантов и их точность. DeepSomatic немного лучше работает для однобуквенных вариаций в генетическом коде, известных как однонуклеотидные вариации, и демонстрирует значительные улучшения для вариаций, включающих инсерции/делеции (инделы).

Седьмой образец представлял собой одну из ранее использованных исследовательских клеточных линий опухоли молочной железы, которая была сохранена с помощью метода фиксации формалином и заливки парафином (FFPE). Этот распространенный метод сохранения вносит дополнительные паттерны повреждения ДНК, которые могут осложнить генетический анализ. Этот образец также был секвенирован с использованием полногеномного секвенирования (WES), более доступного метода, который фокусируется только на примерно 1% генома, кодирующего белки. Когда DeepSomatic был обучен на данных таких образцов, а затем протестирован на хромосоме 1, которая была исключена из обучения, он снова превзошел другие инструменты, что предполагает возможность его использования для идентификации вариантов в образцах опухолей низкого качества или исторических образцах, потенциально спасая образцы, которые было сложнее секвенировать, и работая с клиническими данными, где было секвенировано только экзом.

График точности на образцах FFPE и WES

DeepSomatic демонстрирует заметно более высокую точность на образцах, подготовленных с использованием более сложных этапов предварительной обработки, включающих: фиксированные формалиновые парафиновые срезы (FFPE), метод, используемый для сохранения образцов тканей ( слева ), и секвенирование всего экзома (WES), метод секвенирования только тех частей генома, которые кодируют белки ( справа ). В средней части показан образец, сохраненный с помощью FFPE и также секвенированный с использованием секвенирования всего экзома.

Применение DeepSomatic к другим видам рака

Чтобы проверить эффективность DeepSomatic на других типах рака, мы проанализировали один образец глиобластомы — агрессивной формы рака головного мозга, возникающей из-за небольшого количества вариантов генов. DeepSomatic смог точно определить эти варианты, показав, что он может обобщать свои знания и применять их к другим типам рака.

Мы также сотрудничали с партнерами из детской больницы Children's Mercy в Канзас-Сити для анализа восьми ранее секвенированных образцов детской лейкемии — рака белых кровяных клеток, наиболее распространенного детского рака. Лейкемия присутствует в кровотоке, поэтому получить «нормальный» образец крови без признаков рака невозможно. Несмотря на эту сложность, DeepSomatic идентифицировал ранее известные варианты, а также 10 новых, показав, что он может работать только с образцом опухоли.

Что дальше?

Мы надеемся, что исследовательские лаборатории и врачи смогут начать использовать этот инструмент. Выявление известных вариантов раковых клеток может помочь выбрать оптимальный вариант лечения, например, химиотерапию, иммунотерапию или другие методы. Выявление новых вариантов раковых клеток потенциально может привести к созданию совершенно новых методов терапии. Мы надеемся, что люди смогут использовать эти инструменты, чтобы узнать больше о каждой раковой опухоли, выяснить причины ее возникновения и, в конечном итоге, обеспечить пациентам наиболее эффективное лечение.

Благодарности

Мы благодарим всех участников исследования, чье участие в исследовательских программах и предоставление клеточных линий сделали возможной эту работу и другие биомедицинские исследования. Мы благодарим наших сотрудников из Института геномики Калифорнийского университета в Санта-Крузе, Национального института рака, Национальной лаборатории исследований рака имени Фредерика, Детской больницы Мерси и Нью-Йоркского университета. Мы благодарим Ханну Хики за вклад в написание статьи. Мы благодарим Авинатана Хассидима, Кэтрин Чоу, Лиззи Дорфман и Йосси Матиаса за поддержку в руководстве исследованиями. Мы благодарим Решам Парих и Ишу Мишру за помощь в коммуникации.

    Источник: research.google

    ✅ Найденные теги: DeepSomatic, Генетические Варианты, ИИ, Использование, новости, опухоли

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Человек звонит в поддержку, виден экран восстановления Windows.
    Белый медведь стоит на задних лапах на заснеженной поверхности, поднимая переднюю лапу.
    Белый медведь стоит на задних лапах на заснеженной арктической поверхности.
    Управление здравоохранения штата Нью-Йорк выделяет 300 миллионов долларов на поддержку внедрения информационных технологий в здравоохранении.
    Комета в космосе с ярким синим хвостом и светящимися фрагментами на тёмном фоне.
    Микроскоп и модель вируса крупным планом на лабораторном столе.
    ideipro logotyp
    Офтальмологическое оборудование для проверки зрения в кабинете врача, профессиональная оптика.
    Человек проходит офтальмологический осмотр на щелевой лампе.
    Image Not Found
    Человек звонит в поддержку, виден экран восстановления Windows.

    Разработчик программного обеспечения для шифрования VeraCrypt заявляет, что пользователи Windows могут столкнуться с проблемами при загрузке после того, как Microsoft заблокировала его учетную запись.

    Кредиты изображений: Харун Озалп / Анадолу Разработчик популярного программного обеспечения для шифрования файлов VeraCrypt заявляет, что Microsoft заблокировала доступ к учетной записи, которую он использовал для рассылки обновлений пользователям Windows, и предупреждает, что любой, кто зашифрует свои…

    Апр 12, 2026
    Белый медведь стоит на задних лапах на заснеженной арктической поверхности.

    Разработка контекста для агентов ИИ: принципы и практика

    Как оптимизировать контекст — ценный, ограниченный ресурс для агентов искусственного интеллекта. Делиться Фото Ханса-Юргена Магера через Unsplash Мы много говорим о более совершенных моделях, больших контекстных окнах и более мощных агентах. Но большинство реальных сбоев происходит не…

    Апр 12, 2026
    Белый медведь стоит на задних лапах на заснеженной поверхности, поднимая переднюю лапу.

    Разработка контекста для агентов ИИ: подробный анализ.

    Как оптимизировать контекст — ценный, ограниченный ресурс для агентов искусственного интеллекта. Делиться Фото Ханса-Юргена Магера через Unsplash Мы много говорим о более совершенных моделях, больших контекстных окнах и более мощных агентах. Но большинство реальных сбоев происходит не…

    Апр 12, 2026
    Управление здравоохранения штата Нью-Йорк выделяет 300 миллионов долларов на поддержку внедрения информационных технологий в здравоохранении.

    Управление здравоохранения штата Нью-Йорк выделяет 300 миллионов долларов на поддержку внедрения информационных технологий в здравоохранении.

    Министерство обороны объявило о начале тендера на закупку корпоративных технологий и других ИТ-решений, связанных с электронной медицинской картой MHS GENESIS. Электронные медицинские карты (ЭМК, ЭМР) Фотография предоставлена FatCamera / Getty Images Агентство здравоохранения Министерства обороны объявляет конкурс…

    Апр 12, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых