
DeepSomatic — это инструмент на основе искусственного интеллекта, который выявляет связанные с раком мутации в генетической последовательности опухоли, помогая точно определить причину развития рака.
Быстрые ссылки
- Бумага
- Инструмент DeepSomatic
- Набор данных ЗАМКА
- Делиться
Рак — это, по сути, генетическое заболевание, при котором нарушаются генетические механизмы контроля деления клеток. Существует множество типов рака, и каждый из них представляет собой уникальную проблему, поскольку может иметь различные генетические основы. Мощным методом изучения рака и важным шагом на пути к разработке плана лечения является выявление генетических мутаций в опухолевых клетках. Действительно, в настоящее время врачи часто секвенируют геномы биопсированных опухолевых клеток, чтобы разработать планы лечения, которые целенаправленно нарушают рост данного вида рака.
В сотрудничестве с партнерами из Института геномики Калифорнийского университета в Санта-Крузе и другими федеральными и академическими исследователями, в нашей новой статье «DeepSomatic: Точное обнаружение соматических малых вариантов для различных технологий секвенирования», опубликованной в журнале Nature Biotechnology, представлен инструмент, использующий машинное обучение для более точного выявления генетических вариантов в опухолевых клетках, чем существующие методы. DeepSomatic — это гибкая модель, использующая сверточные нейронные сети для идентификации опухолевых вариантов. Она работает с данными со всех основных платформ секвенирования, для различных типов обработки образцов и может расширять свои знания на типы рака, не включенные в обучение.
Мы сделали как инструмент, так и созданный нами высококачественный обучающий набор данных общедоступными для исследовательского сообщества. Эта работа является частью более широких усилий Google по разработке методов искусственного интеллекта для понимания рака и оказания помощи ученым в его лечении, включая анализ маммографических изображений для скрининга рака молочной железы, КТ-сканирований для скрининга рака легких, а также партнерство, направленное на использование ИИ для продвижения исследований гинекологических онкологических заболеваний. Мы надеемся ускорить исследования рака и продвинуться к цели персонализированной медицины.
Генетическая изменчивость, приобретенная после рождения.
Секвенирование генома используется в научных исследованиях и медицинских клиниках для выявления генетических вариаций между отдельным человеком и эталонным геномом человека. Различить реальные варианты и простые ошибки, допущенные в процессе секвенирования, — сложная задача. Именно поэтому почти десять лет назад исследовательский центр Google представил DeepVariant для выявления унаследованных вариантов, также называемых герминальными вариантами, которые передаются от родителей и обнаруживаются во всех клетках организма.
Генетика рака гораздо сложнее. Зачастую причиной рака являются варианты генов, приобретенные после рождения. Воздействие факторов окружающей среды, повреждающих ДНК, таких как ультрафиолетовое излучение или химические канцерогены, а также случайные ошибки, возникающие во время репликации ДНК, могут приводить к тому, что клетки организма, известные как соматические клетки, приобретают новые варианты генов. Иногда эти приобретенные варианты изменяют нормальное поведение клеток и могут вызывать их репликацию, когда этого делать не следует. Этот процесс лежит в основе начального развития рака, а также его последующего прогрессирования до более быстрорастущих и инвазивных стадий.
Выявление вариантов, специфичных для некоторых соматических клеток человека, гораздо сложнее, чем выявление унаследованных вариантов. Опухолевые клетки могут содержать разнообразный набор приобретенных вариантов с различной частотой, а частота ошибок секвенирования может быть выше, чем частота присутствия соматического варианта в образце.
Обучение DeepSomatic распознаванию генетических вариаций в опухолевых клетках
Мы разработали DeepSomatic для решения этих задач и точного выявления соматических вариантов. В большинстве клинических и исследовательских условий рак изучается путем секвенирования опухолевых клеток, полученных при биопсии, а также нормальных клеток, не затронутых ростом опухоли и содержащих более типичные наследственные генетические вариации. DeepSomatic обучен выявлять вариации, наблюдаемые в опухолевых клетках, которые не являются наследственными вариантами. Эти типы вариаций могут дать критически важную информацию о том, какие вариации стимулируют рост опухоли. DeepSomatic также способен выявлять соматические вариации в режиме анализа только опухолевых клеток, когда последовательность неопухолевых клеток недоступна, например, при раке крови, таком как лейкемия, где трудно получить только нормальные клетки из образца крови. Возможность расширения до различных типов сценариев использования, соответствующих распространенным методам изучения рака врачами и исследователями, делает DeepSomatic применимым во многих исследовательских и клинических условиях.
Как и наш предыдущий инструмент, DeepVariant, модель DeepSomatic работает следующим образом: сначала данные генетического секвенирования преобразуются в набор изображений. Изображения представляют собой данные секвенирования, выравнивание вдоль хромосомы, качество выходных данных и другие переменные. Затем DeepSomatic использует свою сверточную нейронную сеть на данных опухолевых и нераковых клеток, чтобы различить референсный геном, нераковые герминальные варианты у данного индивидуума и соматические варианты, вызванные раком в опухоли, отбрасывая при этом вариации, вызванные небольшими ошибками, возникшими в процессе секвенирования. В результате получается список связанных с раком вариантов, или мутаций.
DeepSomatic выявляет варианты генома, вызывающие рак. Сначала данные секвенирования опухолевых и нераковых клеток преобразуются в изображение. DeepSomatic пропускает эти изображения через свою сверточную нейронную сеть, чтобы различить референсный геном, нераковые герминальные варианты генома у данного индивидуума и соматические варианты, вызывающие рак в опухоли, отбрасывая при этом вариации, вызванные небольшими ошибками секвенирования. В результате получается список вариантов генома, вызывающих рак, или мутаций.
Для обучения точных моделей, способных выявлять генетические вариации для различных типов рака, необходимы всесторонние, высококачественные данные и эталонные наборы. Для этой работы мы создали новый обучающий и оценочный набор данных для обнаружения вариантов в опухолевых клетках. Совместно с нашими партнерами из Калифорнийского университета в Санта-Крузе и Национального института рака мы секвенировали опухолевые клетки и сопутствующие нормальные клетки из четырех образцов рака молочной железы и двух образцов рака легких из исследовательских клеточных линий.
Эталонный набор данных, использованный для обучения DeepSomatic. Каждый столбик показывает количество мутаций, обнаруженных в четырех образцах рака молочной железы и двух образцах рака легких, при этом цвет обозначает различные типы мутаций. При раке легких наблюдается заметный тип мутаций, вызванных токсинами окружающей среды, включая SBS4, показанный зеленым цветом. Но даже один и тот же тип рака демонстрирует большие различия в своей мутационной сигнатуре. Эти индивидуальные различия могут предсказать, насколько хорошо он будет реагировать на лечение.
Для создания точного обучающего набора данных мы провели полногеномное секвенирование этих шести образцов с использованием трех ведущих платформ: секвенирования коротких прочтений Illumina, секвенирования длинных прочтений PacBio и секвенирования длинных прочтений Oxford Nanopore Technology. Результаты, полученные со всех трех платформ, были объединены для устранения ошибок, специфичных для каждой платформы, и создания единого, точного эталонного набора данных, который мы называем набором данных для оценки длинных прочтений в соответствии со стандартами онкологии (CASTLE), для оценки генетического разнообразия в опухолевых и нормальных клетках.
Проверка способности DeepSomatic выявлять варианты генов, связанные с раком.
Мы обучили DeepSomatic на трех геномах рака молочной железы и двух геномах рака легких из эталонного набора данных CASTLE. Затем мы протестировали производительность DeepSomatic несколькими способами, в том числе на единственном геноме рака молочной железы, который не был включен в обучающие данные, и на хромосоме 1 из каждого образца, которую мы также исключили из обучения.
Результаты показывают, что модели DeepSomatic, разработанные для каждой из трех основных платформ секвенирования, показали лучшие результаты, чем другие методы, выявив больше вариантов опухолей с более высокой точностью. Для сравнения на данных секвенирования коротких прочтений использовались инструменты SomaticSniper, MuTect2 и Strelka2 (причем SomaticSniper был разработан специально для однонуклеотидных вариантов, или SNV). Для данных секвенирования длинных прочтений мы сравнивали результаты с ClairS, моделью глубокого обучения, обученной на синтетических данных.
В ходе наших тестов DeepSomatic выявил 329 011 соматических вариантов в шести референсных клеточных линиях и седьмом сохраненном образце. DeepSomatic особенно хорошо справляется с выявлением раковых вариантов, включающих вставки и делеции («инделы») генетического кода. Для таких типов вариантов DeepSomatic существенно повысил показатель F1-меры, сбалансированную меру того, насколько хорошо модель находит истинные варианты в образце (полнота) и при этом не допускает ложных срабатываний (точность). На данных секвенирования Illumina следующий лучший метод показал 80% точности при выявлении инделов, в то время как DeepSomatic — 90%. На данных секвенирования Pacific Biosciences следующий лучший метод показал менее 50% точности при выявлении инделов, а DeepSomatic — более 80%.
Результаты DeepSomatic ( фиолетовый цвет ) для образца рака молочной железы, широко используемого в исследованиях, в сравнении с другими инструментами. Несколько программных инструментов идентифицируют варианты раковых клеток в данных Illumina, в то время как для данных секвенирования длинных прочтений, полученных PacBio и Oxford Nanopore Technologies, существует только одна альтернатива ( розовый цвет ). Показатель F1 измеряет количество обнаруженных вариантов и их точность. DeepSomatic немного лучше работает для однобуквенных вариаций в генетическом коде, известных как однонуклеотидные вариации, и демонстрирует значительные улучшения для вариаций, включающих инсерции/делеции (инделы).
Седьмой образец представлял собой одну из ранее использованных исследовательских клеточных линий опухоли молочной железы, которая была сохранена с помощью метода фиксации формалином и заливки парафином (FFPE). Этот распространенный метод сохранения вносит дополнительные паттерны повреждения ДНК, которые могут осложнить генетический анализ. Этот образец также был секвенирован с использованием полногеномного секвенирования (WES), более доступного метода, который фокусируется только на примерно 1% генома, кодирующего белки. Когда DeepSomatic был обучен на данных таких образцов, а затем протестирован на хромосоме 1, которая была исключена из обучения, он снова превзошел другие инструменты, что предполагает возможность его использования для идентификации вариантов в образцах опухолей низкого качества или исторических образцах, потенциально спасая образцы, которые было сложнее секвенировать, и работая с клиническими данными, где было секвенировано только экзом.
DeepSomatic демонстрирует заметно более высокую точность на образцах, подготовленных с использованием более сложных этапов предварительной обработки, включающих: фиксированные формалиновые парафиновые срезы (FFPE), метод, используемый для сохранения образцов тканей ( слева ), и секвенирование всего экзома (WES), метод секвенирования только тех частей генома, которые кодируют белки ( справа ). В средней части показан образец, сохраненный с помощью FFPE и также секвенированный с использованием секвенирования всего экзома.
Применение DeepSomatic к другим видам рака
Чтобы проверить эффективность DeepSomatic на других типах рака, мы проанализировали один образец глиобластомы — агрессивной формы рака головного мозга, возникающей из-за небольшого количества вариантов генов. DeepSomatic смог точно определить эти варианты, показав, что он может обобщать свои знания и применять их к другим типам рака.
Мы также сотрудничали с партнерами из детской больницы Children's Mercy в Канзас-Сити для анализа восьми ранее секвенированных образцов детской лейкемии — рака белых кровяных клеток, наиболее распространенного детского рака. Лейкемия присутствует в кровотоке, поэтому получить «нормальный» образец крови без признаков рака невозможно. Несмотря на эту сложность, DeepSomatic идентифицировал ранее известные варианты, а также 10 новых, показав, что он может работать только с образцом опухоли.
Что дальше?
Мы надеемся, что исследовательские лаборатории и врачи смогут начать использовать этот инструмент. Выявление известных вариантов раковых клеток может помочь выбрать оптимальный вариант лечения, например, химиотерапию, иммунотерапию или другие методы. Выявление новых вариантов раковых клеток потенциально может привести к созданию совершенно новых методов терапии. Мы надеемся, что люди смогут использовать эти инструменты, чтобы узнать больше о каждой раковой опухоли, выяснить причины ее возникновения и, в конечном итоге, обеспечить пациентам наиболее эффективное лечение.
Благодарности
Мы благодарим всех участников исследования, чье участие в исследовательских программах и предоставление клеточных линий сделали возможной эту работу и другие биомедицинские исследования. Мы благодарим наших сотрудников из Института геномики Калифорнийского университета в Санта-Крузе, Национального института рака, Национальной лаборатории исследований рака имени Фредерика, Детской больницы Мерси и Нью-Йоркского университета. Мы благодарим Ханну Хики за вклад в написание статьи. Мы благодарим Авинатана Хассидима, Кэтрин Чоу, Лиззи Дорфман и Йосси Матиаса за поддержку в руководстве исследованиями. Мы благодарим Решам Парих и Ишу Мишру за помощь в коммуникации.
Источник: research.google




















