Продукт генома: семантический подход к созданию генов de novo

Ноя 28, 2025 0

Ученые из США показали, что геномная языковая модель Evo способна создавать новые функциональные последовательности, опираясь на контекст прокариотического генома. С помощью Evo они сгенерировали системы токсин-антитоксин (как белковые, так и на основе РНК) и анти-CRISPR белки, причем некоторые варианты не имели выраженного сходства с природными белками, но обладали целевой активностью. Также авторы работы создали базу SynGenome, содержащую 120 гигабаз синтетической ДНК. Некоторые входящие в нее гены также выходили за пределы естественных последовательностей. Это доказывает, что семантический подход позволяет получать гены de novo, опираясь только на организацию геномов.

Группа исследователей из США представила концепцию «семантического проектирования» искусственных геномов. Она основана на использовании Evo — геномной языковой модели, обученной на миллиардах пар оснований прокариотических геномов. В геномах бактерий гены с родственными функциями часто располагаются рядом, формируя опероны и устойчивые функциональные кластеры. Если модель способна улавливать такую «геномную семантику», то, используя короткую подсказку из реального геномного контекста, она может генерировать новые последовательности, функционально связанные с этим контекстом, но не обязанные быть похожими на природные. С помощью такого «автодополнения» последовательностей авторы сгенерировали токсины, антитоксины, анти-CRISPR белки и РНК-антитоксины — то есть белки и нуклеиновые кислоты, обладающие активностью, но не имеющие выраженного сходства с природными последовательностями.

Для начала авторы проверили способность Evo к автодополнению бактериальных генов, то есть давали только фрагмент высококонсервативного гена и оценивали, может ли модель правильно его продолжить. В анализ включили три версии модели, из них Evo 1.5 продемонстрировала наиболее высокую производительность. Например, получая на вход всего 30% последовательности, модель восстанавливала сигма-фактор РНК-полимеразы Escherichia coli (rpoS) c 85%-ной достоверностью. Также Evo 1.5 продемонстрировала способность достраивать гены внутри целых оперонов, учитывая направление транскрипции. Анализ энтропии показал, что модель не запоминает конкретные последовательности, а генерирует их заново, сохраняя ключевые аминокислоты, но варьируя нуклеотиды, подобно естественной эволюции.

Далее ученые перешли к полноценному функциональному дизайну и с помощью подсказок из геномного контекста пытались создавать многокомпонентные системы. Для моделирования они выбрали системы токсин-антитоксин типа II, играющие роль в защите от бактериофагов. Сначала авторы генерировали токсичные белки, затем тестировали их способность ингибировать рост бактерий. Один из вариантов, EvoRelE1, продемонстрировал выраженную токсичность — он снижал выживаемость бактерий на 70% — и умеренное сходство с с природным RelE. Затем его последовательность использовали в качестве входных данных, чтобы модель создала подходящие антитоксины. Из набора сгенерированных последовательностей половина оказалась функциональной, а лучшие варианты полностью восстанавливали рост клеток. Некоторые антитоксины нейтрализовали сразу несколько природных токсинов, хотя сами имели низкое сходство с природными последовательностями. Это указывает на способность модели извлекать скрытые принципы взаимодействий белков, не ограниченные существующими природными шаблонами.

Аналогичный подход применили к системам типа III, где для нейтрализации токсина используется не белок, а повторяющаяся РНК. Среди кандидатов нашли рабочий РНК-антитоксин EvoAT6, подавляющий токсин ToxN и имеющий лишь умеренное сходство с последовательностью ToxI — РНК-антитоксина Bacillus multifaciens. Более того, Evo создала полностью новый токсин EvoT1, не похожий на существующие в природе.

Используя контексты природных анти-CRISPR оперонов — фаговых систем защиты от иммунитета бактерий, — модель создала большую библиотеку кандидатных анти-CRISPR белков (Acr). Авторы оценили их потенциал с помощью алгоритма машинного обучения PaCRISPR, который классифицировал многие последовательности как вероятные Acr. Затем их тестировали в культурах E. coli. В результате 17% последовательностей подавляли работу Cas9, причем пять из них обеспечивали выраженную защиту как в жидкой культуре, так и при фаговой инфекции. Два белка, EvoAcr1 и EvoAcr2, не были схожи с какими-либо природными белками. EvoAcr3–5 также были эффективны, но принадлежали к существующим классам белков, включая те, что ранее не были связаны с анти-CRISPR активностью.

В завершение работы авторы создали SynGenome — базу данных искусственных геномов, содержащую 120 миллиардов пар оснований синтетической ДНК. В качестве геномных подсказок модель опиралась на более чем 1,7 млн природных бактериальных и фаговых генов. Анализ этой базы показал, что сгенерированные открытые рамки считывания (ORF) по длине, структуре и доменной архитектуре напоминают природные, но при этом около 20% последовательностей формируют кластеры, отсутствующие в природном семантическом пространстве геномов. SynGenome также воспроизводит естественные ассоциации доменов и может подсказать функцию неохарактеризованных белков. База данных находится в открытом доступе.

Таким образом, что языковая модель, обученная на прокариотических геномах, способна создавать новые функциональные молекулы, основываясь исключительно на геномном контексте, которое в природе отражает функциональные связи. Полученные белки и РНК — токсины, антитоксины, анти-CRISPR-системы — обладают биологической активностью, при этом многие из них принципиально новы и не имеют явного сходства с известными белками. Этот подход открывает возможность быстрого генерирования стартовых вариантов для дальнейшей инженерии, поиска новых биологических инструментов и расширения функционального пространства генов.

Источник: pcr.news

Источник: ai-news.ru

Метки:

ПРЕДЫДУЩАЯ ЗАПИСЬ

28.11.2025

Как OpenAI и Google видят, что ИИ меняет стратегии выхода на рынок

СЛЕДУЮЩАЯ ЗАПИСЬ

28.11.2025

«Яндекс» окончательно отказался от онлайн-продажи билетов на междугородние автобусы

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~