arXiv:2602.23179v2 Тип объявления: замена-кросс Аннотация: Белковые последовательности изобилуют повторяющимися сегментами, как в виде точных копий, так и в виде приблизительных сегментов с мутациями. Эти повторы важны для структуры и функции белка, что мотивирует десятилетия работы над алгоритмами идентификации повторов. Недавние исследования показали, что модели белкового языка (PLM) идентифицируют повторы, изучая их поведение при предсказании замаскированных токенов. Чтобы прояснить их внутренние механизмы, мы исследуем, как PLM обнаруживают как точные, так и приблизительные повторы. Мы обнаруживаем, что механизм для приблизительных повторов функционально включает в себя механизм для точных повторов. Затем мы характеризуем этот механизм, выявляя два основных этапа: PLM сначала строят представления признаков, используя как общие позиционные механизмы внимания, так и биологически специализированные компоненты, такие как нейроны, кодирующие сходство аминокислот. Затем индукционные механизмы обращают внимание на выровненные токены в повторяющихся сегментах, способствуя правильному ответу. Наши результаты показывают, как PLM-ы решают эту биологическую задачу, сочетая сопоставление образов на основе языка со специализированными биологическими знаниями, тем самым закладывая основу для изучения более сложных эволюционных процессов в PLM-ах.
Источник: arxiv.org




















