Image

Статистический метод mcRigor повышает строгость разбиения метаклеток при анализе данных отдельных клеток

mcRigor обнаруживает сомнительные метаячейки в каждом разделе метаячеек и выбирает оптимальный метод разделения метаячеек и гиперпараметр для заданного набора данных.

Делиться

05fc2352c8b5714cd6de90a5aae08d21

Статья написана в соавторстве с Пан Лю, научным сотрудником Калифорнийского университета в Лос-Анджелесе и Онкологического центра Фреда Хатчинсона. Пан является первым автором статьи в журнале mcRigor Nature Communications.

Технологии секвенирования отдельных клеток в последние годы стремительно развиваются, открывая беспрецедентные возможности для изучения клеточного разнообразия, динамических изменений в состояниях клеток и глубинных механизмов регуляции генов. Помимо широко используемого секвенирования РНК отдельных клеток (scRNA-seq)1,2, новые методы, такие как секвенирование доступности хроматина отдельных клеток (scATAC-seq)3,4 и совместное профилирование доступности транскриптома и хроматина (scMultiome)5, позволяют проводить анализ клеточной гетерогенности с разрешением до одной клетки в нескольких омиксных слоях. Однако данные, получаемые с помощью этих технологий, обычно крайне разрозненны, в первую очередь из-за ограниченной глубины секвенирования на клетку, а также несовершенства обратной транскрипции и нелинейной амплификации, из-за которых высокоэкспрессируемые гены доминируют в производительности секвенирования и затрудняют обнаружение низкоэкспрессируемых генов6.

6d7a631ea73d3d53775218d07a6d7a07

Чтобы уменьшить разреженность данных и шум, исследователи предложили концепцию «метаклеток» , в которой клетки со схожими профилями экспрессии объединяются в одну репрезентативную единицу — метаклетку, экспрессия которой определяется средней экспрессией составляющих ее клеток, тем самым усиливая сигнал и снижая шум. Тем не менее, существующие методы построения метаклеток часто дают существенно разные разделы метаклеток и очень чувствительны к настройкам гиперпараметров, в частности, к среднему размеру метаклетки 7. Такое отсутствие согласованности затрудняет для пользователей определение того, какой раздел метаклеток более надежен и в какой степени полученные профили метаклеток сохраняют истинные биологические сигналы. Следовательно, надежность последующих анализов ставится под угрозу, а потенциал метаклеток как общей структуры предварительной обработки данных для различных задач и омиксных модальностей остается ограниченным.

В нашей статье 8 в журнале Nature Communications представлено строгое статистическое определение метаклетки, основанное на двухслойной модели данных секвенирования отдельных клеток: верхний слой отражает биологическую вариабельность истинной экспрессии, а нижний моделирует процесс секвенирования, генерирующий измеренную экспрессию на основе истинной экспрессии. Основываясь на этом определении, мы разрабатываем mcRigor — статистическую платформу для обнаружения сомнительных метаклеток в заданном разделе и выбора оптимального метода и гиперпараметра разделения метаклеток среди возможных конфигураций метода и гиперпараметра.

mcRigor не только обнаруживает и удаляет сомнительные метаклетки (его расширенная версия, mcRigor two-step , дополнительно разбирает сомнительные метаклетки на отдельные клетки и собирает их в более мелкие, более надежные), тем самым повышая надежность последующих анализов, таких как коэкспрессия генов и регуляция генов-энхансеров, но и позволяет выбирать наиболее подходящую стратегию разбиения метаклеток на основе данных для каждого набора данных. Благодаря гибкой совместимости mcRigor может быть легко применен к транскриптомным данным отдельных клеток, данным о доступности хроматина и мультиомным данным (рис. 2). Кроме того, mcRigor предоставляет единый критерий оценки для сравнительного анализа различных методов конструирования метаклеток, предлагая исследователям надежное руководство по выбору метода.

В первой части нашей статьи 8 мы представляем методологию mcRigor для выявления сомнительных метаклеток. В частности, mcRigor количественно оценивает внутреннюю гетерогенность каждой метаклетки, используя статистику mcDiv , основанную на корреляции признаков, которая измеряет отклонение корреляций между признаками от независимости. Обоснование заключается в том, что если все клетки-участники имеют одинаковые уровни истинной экспрессии, и наблюдаемая вариабельность между ними возникает исключительно в процессе измерения, признаки должны быть приблизительно независимыми. Затем mcRigor строит нулевое распределение для mcDiv, используя новую процедуру двойной перестановки , и идентифицирует метаклетки, значительно отклоняющиеся от этого нулевого значения, как сомнительные (рис. 2a).

Как в полумоделированных, так и в реальных наборах данных PBMC mcRigor точно отличает достоверные метаклетки от сомнительных (рис. 2b–c). Мы также продемонстрировали эффективность mcRigor в повышении надежности множественных нисходящих анализов. При анализе данных клеточных линий удаление сомнительных метаклеток значительно увеличивает отношение сигнал/шум генов-маркеров клеточного цикла (рис. 2d). При анализе данных COVID-19 по сравнению со здоровым контролем mcRigor устраняет ложные корреляции генов, вызванные сомнительными метаклетками, и выявляет более сильную коэкспрессию в модулях адаптивного иммунного ответа (рис. 2e). При анализе данных scMultiome mcRigor повышает выявляемость ассоциаций генов-энхансеров, отфильтровывая слабо подкрепленные ложноположительные результаты, сохраняя при этом сигналы, согласующиеся с наблюдаемыми на уровне отдельных клеток (рис. 2f).

ce91b5b8fb456c41c68192ff355e0954

5da198f7ae1fc576246eb51d68a68677

Во второй части нашей статьи 8 мы представляем методологию mcRigor для оценки разделов метаячеек и оптимизации гиперпараметров. Сопоставляя надёжность метаячеек с разреженностью данных, mcRigor присваивает общую оценку каждому разделу-кандидату и автоматически выбирает оптимальную конфигурацию метода и параметров среди всех кандидатов, тем самым преобразуя эмпирический процесс настройки метода и параметров в автоматизированное принятие решений на основе данных (рис. 3а).

Мы иллюстрируем полезность этой функции оптимизации для решения различных задач, связанных с последующими этапами. Например, нулевая доля метаклеток, оптимизированных с помощью mcRigor, практически соответствует эталонной нулевой доле, измеренной с помощью smRNA-FISH, что демонстрирует способность метода отличать технические нули от биологических (рис. 3b). В анализе дифференциальной экспрессии результаты, полученные для метаклеток, оптимизированных с помощью mcRigor, лучше согласуются с данными, полученными на основе данных массового РНК-секвенирования, что указывает на повышенную надежность (рис. 3c). В данных динамики метаклетки, оптимизированные с помощью mcRigor, улучшают разрешение траектории и выявляют более четкую динамику экспрессии генов, согласующуюся с экспериментальными данными (рис. 3d).

Пакет mcRigor R и онлайн-руководства доступны по адресу https://jsb-ucla.github.io/mcRigor/

Полная версия статьи доступна по адресу https://www.nature.com/articles/s41467-025-63626-5

Ссылки:

1. Пичелли, С. и др. Полноразмерное секвенирование РНК из отдельных клеток с использованием Smart-seq2. Nat. Protoc. 9 , 171–181 (2014).

2. Macosko, EZ et al. Высокопараллельное профилирование экспрессии генома отдельных клеток с использованием нанолитровых капель. Cell 161 , 1202–1214 (2015).

3. Буэнростро, Дж. Д. и др. Доступность хроматина отдельных клеток раскрывает принципы регуляторной изменчивости. Nature 523 , 486–490 (2015).

4. Кусанович, Д.А. и др. Мультиплексное профилирование доступности хроматина в отдельных клетках методом комбинаторного клеточного индексирования. Science 348 , 910–914 (2015).

5. Цао, Дж. и др. Совместное профилирование доступности хроматина и экспрессии генов в тысячах отдельных клеток. Science 361 , 1380–1385 (2018).

6. Цзян, Р., Сан, Т., Сун, Д. и Ли, Дж. Дж. Статистика или биология: спор о нулевой инфляции в отношении данных scRNA-seq. Genome Biol. 23 , 31 (2022).

7. Билоус, М., Эро, Л., Габриэль, А.А., Телеман, М. и Гфеллер, Д. Создание и анализ метаклеток в данных геномики отдельных клеток. Mol. Syst. Biol. 20 , 744–766 (2024).

8. Лю, П. и Ли, Дж. Дж. МакРигор: статистический метод повышения строгости разбиения метаклеток при анализе данных отдельных клеток. bioRxiv (2024) doi:10.1101/2024.10.30.621093.

9. Киршенбаум, Д. и др. Транскриптомика отдельных клеток с временным разрешением определяет иммунные траектории при глиобластоме. Cell 187 , 149–165.e23 (2024).

Источник: towardsdatascience.com

✅ Найденные теги: новости, Статистический

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых