Предоставляя целостную информацию о клетке, метод, основанный на искусственном интеллекте, может помочь ученым лучше понять механизмы заболеваний и спланировать эксперименты.
Новая система искусственного интеллекта определяет, какие данные о клетке получены с помощью одного метода измерения, а какие используются несколькими методами. Это позволяет исследователям получить более полное представление о состоянии клетки и может помочь им понять механизмы заболеваний и спланировать лечение. Источник: iStock
Изучение экспрессии генов в клетках онкологического пациента может помочь клиническим биологам понять происхождение рака и предсказать эффективность различных методов лечения. Однако клетки сложны и содержат множество слоев, поэтому способ проведения измерений влияет на то, какие данные можно получить. Например, измерение белков в клетке может дать иную информацию о воздействии рака, чем измерение экспрессии генов или морфологии клеток.
Важно знать, откуда именно в клетке поступает информация. Но для получения полной информации о состоянии клетки ученым часто приходится проводить множество измерений с использованием различных методов и анализировать их по одному. Методы машинного обучения могут ускорить этот процесс, но существующие методы объединяют всю информацию, полученную с помощью каждого метода измерения, что затрудняет определение того, какие данные получены из какой части клетки.
Для решения этой проблемы исследователи из Института Броуда при Массачусетском технологическом институте и Гарвардском университете, а также из Цюрихского технического университета имени Пола Шеррера (PSI) разработали систему на основе искусственного интеллекта, которая определяет, какая информация о состоянии клетки является общей для различных методов измерения, а какая уникальна для конкретного типа измерения.
Благодаря точному определению того, какая информация поступает из каких частей клетки, этот подход обеспечивает более целостное представление о состоянии клетки, облегчая биологу понимание полной картины клеточных взаимодействий. Это может помочь ученым понять механизмы заболеваний и отслеживать прогрессирование рака, нейродегенеративных расстройств, таких как болезнь Альцгеймера, и метаболических заболеваний, таких как диабет.
«При изучении клеток одного измерения часто недостаточно, поэтому ученые разрабатывают новые технологии для измерения различных аспектов клеток. Хотя у нас есть много способов изучения клетки, в конечном итоге мы имеем дело только с одним основным состоянием клетки. Объединив информацию, полученную с помощью всех этих методов измерения, более рациональным образом, мы могли бы получить более полную картину состояния клетки», — говорит ведущий автор Синьи Чжан SM '22, PhD '25, бывшая аспирантка кафедры электротехники и информатики Массачусетского технологического института (MIT) и сотрудница Центра Эрика и Венди Шмидт в Институте Броуда при MIT и Гарварде, которая сейчас является руководителем группы в AITHYRA в Вене, Австрия.
В статье, посвященной этой работе, к Чжану присоединились Г. В. Шивашанкар, профессор кафедры наук о здоровье и технологиях в ETH Zurich и руководитель Лаборатории многомасштабной биовизуализации в PSI; а также старший автор Кэролайн Улер, профессор кафедры электротехники, вычислительной техники и информатики и Института данных, систем и общества (IDSS) в MIT, член Лаборатории информационных и систем принятия решений (LIDS) MIT и директор Центра Эрика и Венди Шмидт в Институте Броуда. Результаты исследования опубликованы сегодня в журнале Nature Computational Science.
Манипулирование несколькими измерениями
Существует множество инструментов, которые ученые могут использовать для получения информации о состоянии клетки. Например, они могут измерять уровень РНК, чтобы определить, растет ли клетка, или измерять морфологию хроматина, чтобы определить, реагирует ли клетка на внешние физические или химические сигналы.
«Когда ученые проводят мультимодальный анализ, они собирают информацию, используя несколько методов измерения, и интегрируют ее, чтобы лучше понять лежащее в основе состояние клетки. Часть информации фиксируется только одним методом, в то время как другая часть передается между различными методами. Для полного понимания того, что происходит внутри клетки, важно знать, откуда эта информация поступила», — говорит Шивашанкар.
Зачастую единственный способ для ученых разобраться в этом — провести множество отдельных экспериментов и сравнить результаты. Этот медленный и трудоемкий процесс ограничивает объем информации, которую они могут собрать.
В новой работе исследователи разработали систему машинного обучения, которая точно определяет, какая информация пересекается между различными модальностями, а какая является уникальной для конкретной модальности, но не охватывается другими.
«Как пользователь, вы можете просто ввести данные своей мобильной сети, и система автоматически покажет вам, какие данные являются общими, а какие — специфичными для конкретного типа устройства», — говорит Чжан.
Для создания этой структуры исследователи переосмыслили типичный способ разработки моделей машинного обучения для сбора и интерпретации мультимодальных клеточных измерений.
Обычно эти методы, известные как автокодировщики, имеют одну модель для каждого метода измерения, и каждая модель кодирует отдельное представление данных, полученных с помощью этого метода. Представление представляет собой сжатую версию входных данных, в которой отбрасываются все несущественные детали.
Метод MIT предполагает наличие общего пространства представления, где кодируются данные, частично совпадающие между несколькими модальностями, а также отдельных пространств, где кодируются уникальные данные для каждой модальности.
По сути, это можно представить как диаграмму Венна, отображающую клеточные данные.
Исследователи также использовали специальную двухэтапную процедуру обучения, которая помогает их модели справляться со сложностью, связанной с определением того, какие данные являются общими для нескольких типов данных. После обучения модель может определять, какие данные являются общими, а какие — уникальными, при подаче на вход клеточных данных, которые она никогда раньше не видела.
Различительные данные
В ходе тестирования на синтетических наборах данных разработанная система корректно фиксировала известную общую и специфичную для каждого метода информацию. При применении своего метода к реальным наборам данных отдельных клеток система всесторонне и автоматически различала активность генов, регистрируемую совместно двумя методами измерения, такими как транскриптомика и доступность хроматина, а также корректно определяла, какая информация получена только из одного из этих методов.
Кроме того, исследователи использовали свой метод для определения того, какой метод измерения улавливает определенный белковый маркер, указывающий на повреждение ДНК у онкологических больных. Знание источника этой информации помогло бы клиническому исследователю определить, какой метод следует использовать для измерения этого маркера.
«В клетке слишком много различных факторов, и мы не можем измерить их все, поэтому нам нужен инструмент прогнозирования. Но тогда возникает вопрос: какие факторы следует измерять, а какие прогнозировать? Наш метод может ответить на этот вопрос», — говорит Улер.
В будущем исследователи планируют усовершенствовать модель, чтобы она предоставляла более понятную информацию о состоянии клетки. Они также намерены провести дополнительные эксперименты, чтобы убедиться в правильности распознавания клеточной информации и применить модель к более широкому кругу клинических задач.
«Недостаточно просто интегрировать информацию из всех этих источников, — говорит Улер. — Мы можем многое узнать о состоянии клетки, если тщательно сравним различные источники, чтобы понять, как разные компоненты клеток регулируют друг друга».
Данное исследование частично финансируется Центром Эрика и Венди Шмидт при Институте Броуда, Швейцарским национальным научным фондом, Национальными институтами здравоохранения США, Управлением военно-морских исследований США, компанией AstraZeneca, лабораторией искусственного интеллекта MIT-IBM Watson, клиникой машинного обучения и здравоохранения MIT J-Clinic, а также грантом Simons Investigator Award.
Источник: news.mit.edu






















