mcRigor обнаруживает сомнительные метаячейки в каждом разделе метаячеек и выбирает оптимальный метод разделения метаячеек и гиперпараметр для заданного набора данных.
Делиться

Статья написана в соавторстве с Пан Лю, научным сотрудником Калифорнийского университета в Лос-Анджелесе и Онкологического центра Фреда Хатчинсона. Пан является первым автором статьи в журнале mcRigor Nature Communications.
Технологии секвенирования отдельных клеток в последние годы стремительно развиваются, открывая беспрецедентные возможности для изучения клеточного разнообразия, динамических изменений в состояниях клеток и глубинных механизмов регуляции генов. Помимо широко используемого секвенирования РНК отдельных клеток (scRNA-seq)1,2, новые методы, такие как секвенирование доступности хроматина отдельных клеток (scATAC-seq)3,4 и совместное профилирование доступности транскриптома и хроматина (scMultiome)5, позволяют проводить анализ клеточной гетерогенности с разрешением до одной клетки в нескольких омиксных слоях. Однако данные, получаемые с помощью этих технологий, обычно крайне разрозненны, в первую очередь из-за ограниченной глубины секвенирования на клетку, а также несовершенства обратной транскрипции и нелинейной амплификации, из-за которых высокоэкспрессируемые гены доминируют в производительности секвенирования и затрудняют обнаружение низкоэкспрессируемых генов6.

Чтобы уменьшить разреженность данных и шум, исследователи предложили концепцию «метаклеток» , в которой клетки со схожими профилями экспрессии объединяются в одну репрезентативную единицу — метаклетку, экспрессия которой определяется средней экспрессией составляющих ее клеток, тем самым усиливая сигнал и снижая шум. Тем не менее, существующие методы построения метаклеток часто дают существенно разные разделы метаклеток и очень чувствительны к настройкам гиперпараметров, в частности, к среднему размеру метаклетки 7. Такое отсутствие согласованности затрудняет для пользователей определение того, какой раздел метаклеток более надежен и в какой степени полученные профили метаклеток сохраняют истинные биологические сигналы. Следовательно, надежность последующих анализов ставится под угрозу, а потенциал метаклеток как общей структуры предварительной обработки данных для различных задач и омиксных модальностей остается ограниченным.
В нашей статье 8 в журнале Nature Communications представлено строгое статистическое определение метаклетки, основанное на двухслойной модели данных секвенирования отдельных клеток: верхний слой отражает биологическую вариабельность истинной экспрессии, а нижний моделирует процесс секвенирования, генерирующий измеренную экспрессию на основе истинной экспрессии. Основываясь на этом определении, мы разрабатываем mcRigor — статистическую платформу для обнаружения сомнительных метаклеток в заданном разделе и выбора оптимального метода и гиперпараметра разделения метаклеток среди возможных конфигураций метода и гиперпараметра.
mcRigor не только обнаруживает и удаляет сомнительные метаклетки (его расширенная версия, mcRigor two-step , дополнительно разбирает сомнительные метаклетки на отдельные клетки и собирает их в более мелкие, более надежные), тем самым повышая надежность последующих анализов, таких как коэкспрессия генов и регуляция генов-энхансеров, но и позволяет выбирать наиболее подходящую стратегию разбиения метаклеток на основе данных для каждого набора данных. Благодаря гибкой совместимости mcRigor может быть легко применен к транскриптомным данным отдельных клеток, данным о доступности хроматина и мультиомным данным (рис. 2). Кроме того, mcRigor предоставляет единый критерий оценки для сравнительного анализа различных методов конструирования метаклеток, предлагая исследователям надежное руководство по выбору метода.
В первой части нашей статьи 8 мы представляем методологию mcRigor для выявления сомнительных метаклеток. В частности, mcRigor количественно оценивает внутреннюю гетерогенность каждой метаклетки, используя статистику mcDiv , основанную на корреляции признаков, которая измеряет отклонение корреляций между признаками от независимости. Обоснование заключается в том, что если все клетки-участники имеют одинаковые уровни истинной экспрессии, и наблюдаемая вариабельность между ними возникает исключительно в процессе измерения, признаки должны быть приблизительно независимыми. Затем mcRigor строит нулевое распределение для mcDiv, используя новую процедуру двойной перестановки , и идентифицирует метаклетки, значительно отклоняющиеся от этого нулевого значения, как сомнительные (рис. 2a).
Как в полумоделированных, так и в реальных наборах данных PBMC mcRigor точно отличает достоверные метаклетки от сомнительных (рис. 2b–c). Мы также продемонстрировали эффективность mcRigor в повышении надежности множественных нисходящих анализов. При анализе данных клеточных линий удаление сомнительных метаклеток значительно увеличивает отношение сигнал/шум генов-маркеров клеточного цикла (рис. 2d). При анализе данных COVID-19 по сравнению со здоровым контролем mcRigor устраняет ложные корреляции генов, вызванные сомнительными метаклетками, и выявляет более сильную коэкспрессию в модулях адаптивного иммунного ответа (рис. 2e). При анализе данных scMultiome mcRigor повышает выявляемость ассоциаций генов-энхансеров, отфильтровывая слабо подкрепленные ложноположительные результаты, сохраняя при этом сигналы, согласующиеся с наблюдаемыми на уровне отдельных клеток (рис. 2f).


Во второй части нашей статьи 8 мы представляем методологию mcRigor для оценки разделов метаячеек и оптимизации гиперпараметров. Сопоставляя надёжность метаячеек с разреженностью данных, mcRigor присваивает общую оценку каждому разделу-кандидату и автоматически выбирает оптимальную конфигурацию метода и параметров среди всех кандидатов, тем самым преобразуя эмпирический процесс настройки метода и параметров в автоматизированное принятие решений на основе данных (рис. 3а).
Мы иллюстрируем полезность этой функции оптимизации для решения различных задач, связанных с последующими этапами. Например, нулевая доля метаклеток, оптимизированных с помощью mcRigor, практически соответствует эталонной нулевой доле, измеренной с помощью smRNA-FISH, что демонстрирует способность метода отличать технические нули от биологических (рис. 3b). В анализе дифференциальной экспрессии результаты, полученные для метаклеток, оптимизированных с помощью mcRigor, лучше согласуются с данными, полученными на основе данных массового РНК-секвенирования, что указывает на повышенную надежность (рис. 3c). В данных динамики метаклетки, оптимизированные с помощью mcRigor, улучшают разрешение траектории и выявляют более четкую динамику экспрессии генов, согласующуюся с экспериментальными данными (рис. 3d).
Пакет mcRigor R и онлайн-руководства доступны по адресу https://jsb-ucla.github.io/mcRigor/
Полная версия статьи доступна по адресу https://www.nature.com/articles/s41467-025-63626-5
Ссылки:
1. Пичелли, С. и др. Полноразмерное секвенирование РНК из отдельных клеток с использованием Smart-seq2. Nat. Protoc. 9 , 171–181 (2014).
2. Macosko, EZ et al. Высокопараллельное профилирование экспрессии генома отдельных клеток с использованием нанолитровых капель. Cell 161 , 1202–1214 (2015).
3. Буэнростро, Дж. Д. и др. Доступность хроматина отдельных клеток раскрывает принципы регуляторной изменчивости. Nature 523 , 486–490 (2015).
4. Кусанович, Д.А. и др. Мультиплексное профилирование доступности хроматина в отдельных клетках методом комбинаторного клеточного индексирования. Science 348 , 910–914 (2015).
5. Цао, Дж. и др. Совместное профилирование доступности хроматина и экспрессии генов в тысячах отдельных клеток. Science 361 , 1380–1385 (2018).
6. Цзян, Р., Сан, Т., Сун, Д. и Ли, Дж. Дж. Статистика или биология: спор о нулевой инфляции в отношении данных scRNA-seq. Genome Biol. 23 , 31 (2022).
7. Билоус, М., Эро, Л., Габриэль, А.А., Телеман, М. и Гфеллер, Д. Создание и анализ метаклеток в данных геномики отдельных клеток. Mol. Syst. Biol. 20 , 744–766 (2024).
8. Лю, П. и Ли, Дж. Дж. МакРигор: статистический метод повышения строгости разбиения метаклеток при анализе данных отдельных клеток. bioRxiv (2024) doi:10.1101/2024.10.30.621093.
9. Киршенбаум, Д. и др. Транскриптомика отдельных клеток с временным разрешением определяет иммунные траектории при глиобластоме. Cell 187 , 149–165.e23 (2024).
Источник: towardsdatascience.com



























