arXiv:2602.21550v2 Тип объявления: замена-кросс Аннотация: Прогнозирование экспрессии генов, то есть предсказание уровней экспрессии мРНК на основе последовательностей ДНК, представляет собой серьезную проблему. Предыдущие работы часто фокусировались на увеличении длины входной последовательности для определения дистальных энхансеров, которые могут влиять на целевые гены на расстоянии сотен килобаз. Наша работа впервые показывает, что для существующих моделей моделирование длинных последовательностей может снижать производительность. Даже тщательно разработанные алгоритмы лишь смягчают снижение производительности, вызванное длинными последовательностями. Вместо этого мы обнаружили, что проксимальные мультимодальные эпигеномные сигналы вблизи целевых генов оказываются более важными. Поэтому мы сосредоточились на том, как лучше интегрировать эти сигналы, что ранее игнорировалось. Мы обнаружили, что различные типы сигналов выполняют различные биологические функции: некоторые непосредственно маркируют активные регуляторные элементы, в то время как другие отражают фоновые паттерны хроматина, которые могут вносить искажающие эффекты. Простая конкатенация может привести к тому, что модели будут развивать ложные ассоциации с этими фоновыми паттернами. Для решения этой задачи мы предлагаем Prism — фреймворк, который обучается множеству комбинаций многомерных эпигеномных характеристик для представления различных фоновых состояний хроматина и использует обходную корректировку для смягчения искажающих эффектов. Наши экспериментальные результаты показывают, что правильное моделирование мультимодальных эпигеномных сигналов обеспечивает самые современные результаты при использовании только коротких последовательностей для прогнозирования экспрессии генов.
Источник: arxiv.org






















