Сравнительный график показателей алгоритмов проектирования.

Более интеллектуальный дизайн нуклеиновых кислот с помощью NucleoBench и AdaBeam.

7a60ae8aeef3ea4668dcf846221d9695

Мы разработали программное обеспечение с открытым исходным кодом для тестирования производительности при проектировании последовательностей нуклеиновых кислот и представили новый алгоритм AdaBeam, который превосходит существующие алгоритмы в 11 из 16 задач, демонстрируя превосходные масштабируемые свойства на длинных последовательностях и больших массивах данных.

Быстрые ссылки

Разработка новых последовательностей ДНК и РНК со специфическими терапевтическими свойствами является важнейшей задачей современной медицины. Эти молекулы — строительные блоки для лечения следующего поколения, от более точной генной терапии CRISPR до более стабильных и эффективных мРНК-вакцин. Однако поиск нужной последовательности подобен поиску одной песчинки на огромном пляже. Например, небольшой функциональный участок молекулы РНК, называемый 5'-нетранслируемой областью (5' UTR), может представлять собой одну из более чем 2 х 10¹²⁰ возможных последовательностей, что делает невозможным поиск методом перебора для оптимизации его функции.

Что если бы мы могли использовать ИИ для навигации в этом огромном пространстве поиска, значительно сократив время и затраты на разработку лекарств? Хотя различные усилия привели к значительным успехам в разработке моделей ИИ, предсказывающих свойства заданной последовательности нуклеиновых кислот, остается возможность для инноваций в алгоритмах, использующих эти модели для генерации оптимальных последовательностей. Отсутствие стандартизированной оценки препятствует прогрессу и не позволяет нам превратить мощные прогностические модели в наилучшие возможные терапевтические молекулы.

Для решения этой проблемы в рамках исследовательского сотрудничества между Google Research и Move37 Labs мы представляем NucleoBench — первый крупномасштабный стандартизированный бенчмарк для сравнения алгоритмов проектирования нуклеиновых кислот. Проведя более 400 000 экспериментов по 16 различным биологическим задачам, мы создали основу для тщательной оценки и понимания работы различных алгоритмов. Результаты этой работы позволили нам разработать AdaBeam — гибридный алгоритм проектирования, который превосходит существующие методы по 11 из 16 задач и более эффективно масштабируется для больших и сложных моделей, определяющих будущее ИИ в биологии. Мы сделали AdaBeam и все наши реализации алгоритмов свободно доступными для стимулирования дальнейших инноваций.

Главная проблема

Процесс разработки новой последовательности нуклеиновых кислот с помощью компьютеров обычно включает четыре этапа:

  1. Генерация данных : Сбор высококачественного набора данных последовательностей с желаемым свойством (например, связывание с белком, связанным с раком).
  2. Обучение прогностической модели : Используйте эти данные для обучения модели (часто нейронной сети), которая может предсказывать свойство на основе последовательности ДНК или РНК.
  3. Генерация последовательностей-кандидатов : это важнейший этап проектирования. Используйте алгоритм оптимизации для генерации новых последовательностей, которые, по прогнозам модели, будут иметь максимально возможный балл для желаемого свойства.
  4. Проверка кандидатов : синтезируйте и протестируйте наиболее перспективные последовательности в лабораторных условиях, чтобы убедиться, что они работают так, как предполагалось.
  5. Переобучение [Необязательно]: Переобучить модель на данных для валидации.
NucleoBench-1

Типичный рабочий процесс для компьютерного проектирования нуклеиновых кислот.

В данной работе мы сосредоточимся на алгоритмах проектирования на шаге 3. В настоящее время разные исследовательские группы используют разные алгоритмы и тестируют их на разных задачах, что делает невозможным определение того, какие методы действительно являются лучшими. Большинство существующих бенчмарков основаны на таких алгоритмах, как имитация отжига или обычные генетические алгоритмы, которые были разработаны за десятилетия до современного глубокого обучения и не могут использовать важную информацию, такую как градиенты, из моделей нейронных сетей.

NucleoBench

Для создания всеобъемлющего и справедливого эталона мы выбрали разнообразный набор алгоритмов проектирования, как без градиента, так и с градиентом. К алгоритмам без градиента относятся хорошо зарекомендовавшие себя методы, такие как направленная эволюция и имитация отжига, которые вдохновлены процессами эволюции и физики соответственно. Эти алгоритмы рассматривают модель прогнозирующего ИИ как «черный ящик» и тестируют новые последовательности, не нуждаясь в понимании того, как модель работает внутри. Их сила заключается в простоте и широкой применимости, но это означает, что они потенциально упускают ценные подсказки из модели.

Алгоритмы проектирования на основе градиентов используют внутренние механизмы нейронных сетей и включают в себя более современные алгоритмы, такие как FastSeqProp и Ledidi. Они используют градиенты модели (т.е. направление наибольшего улучшения) для интеллектуального управления поиском лучших последовательностей, но требуют больше вычислительных ресурсов, чем просто использование выходных данных нейронной сети.

Насколько нам известно, NucleoBench — это наиболее полный на сегодняшний день бенчмарк для алгоритмов проектирования нуклеиновых кислот, позволяющий проводить справедливое, сопоставимое сравнение алгоритмов. Мы оценили 9 различных алгоритмов на одних и тех же 16 задачах с одинаковыми исходными последовательностями, что обеспечило нам беспрецедентную статистическую мощность для получения значимых выводов. Эти задачи охватывают широкий спектр биологических проблем, включая:

  • Контроль экспрессии генов в определенных типах клеток (например, в клетках печени или нейронах).
  • Максимальное связывание факторов транскрипции (белков, регулирующих гены)
  • Улучшение физической доступности хроматина для биомолекулярных взаимодействий.
  • Прогнозирование экспрессии генов на основе очень длинных последовательностей ДНК с использованием крупномасштабных моделей, таких как Enformer.
Категория задач Описание Количество задач Длина последовательности (п.н.) Скорость (мс / пример)
Цис-регуляторная активность, специфичная для определенного типа клеток Как последовательности ДНК контролируют экспрессию генов, исходящих из одной и той же молекулы ДНК. К типам клеток относятся: клетки-предшественники крови, клетки печени, нейронные клетки. 3 200 2
Связывание транскрипционного фактора Насколько вероятно, что конкретный фактор транскрипции свяжется с определенным участком ДНК. 11 3000 55
Доступность хроматина Насколько физически доступна ДНК для взаимодействия с другими молекулами. 1 3000 260
Селективная экспрессия генов Прогнозирование экспрессии генов 1 196,608 / 256* 15 000

Краткое описание задач проектирования в NucleoBench. *Длина входных данных модели составляет 200 000 пар оснований (п.о.), но редактируются только 256 п.о.

Мы представили алгоритмы упорядоченного и неупорядоченного поиска по лучу, являющиеся основными в информатике, чтобы проверить, как фиксация порядка редактирования последовательности соотносится с более гибким подходом со случайным порядком. Мы также создали Gradient Evo, новый гибридный алгоритм, который улучшает алгоритм направленной эволюции, используя градиенты модели для управления мутациями и независимой оценки того, насколько важны градиенты для выбора места редактирования по сравнению с выбором конкретного редактирования.

Мы также разработали AdaBeam, гибридный адаптивный алгоритм поиска по лучу, который сочетает в себе наиболее эффективные элементы неупорядоченного поиска по лучу с AdaLead, высокопроизводительным алгоритмом неградиентного проектирования. Адаптивные алгоритмы поиска обычно не исследуют случайным образом; вместо этого их поведение изменяется в результате поиска, чтобы сосредоточить свои усилия на наиболее перспективных областях пространства последовательностей. Гибридный подход AdaBeam поддерживает «луч», или набор лучших найденных на данный момент последовательностей-кандидатов, и жадно расширяет выборку на особенно перспективных кандидатах до тех пор, пока они не будут достаточно исследованы.

На практике AdaBeam начинает с популяции последовательностей-кандидатов и их оценок. В каждом раунде он сначала выбирает небольшую группу последовательностей с наивысшими оценками, которые выступают в качестве «родителей». Для каждого родителя AdaBeam генерирует новый набор «дочерних» последовательностей, совершая случайное количество случайных, но направленных мутаций. Затем он следует короткому, жадному пути исследования, позволяющему алгоритму быстро «идти вверх» по ландшафту приспособленности. После достаточного исследования все вновь сгенерированные дочерние последовательности объединяются, и алгоритм выбирает абсолютно лучшие из них для формирования начальной популяции для следующего раунда, повторяя цикл. Этот процесс адаптивного отбора и целенаправленной мутации позволяет AdaBeam эффективно фокусироваться на высокоэффективных последовательностях.

Задачи автоматизированного проектирования представляют собой сложные инженерные проблемы из-за невероятно большого пространства поиска. Эти трудности становятся еще более острыми, когда мы пытаемся проектировать более длинные последовательности, такие как последовательности мРНК, и используем современные большие нейронные сети для управления проектированием. AdaBeam особенно эффективен для длинных последовательностей, используя вероятностную выборку с фиксированным объемом вычислений вместо вычислений, масштабируемых в зависимости от длины последовательности. Чтобы AdaBeam мог работать с большими моделями, мы снижаем пиковое потребление памяти во время проектирования, вводя прием, который мы называем «градиентной конкатенацией». Однако существующие алгоритмы проектирования, не обладающие этими функциями, испытывают трудности с масштабированием до длинных последовательностей и больших моделей. Особенно это касается алгоритмов, основанных на градиенте. Для обеспечения справедливого сравнения мы ограничиваем длину проектируемых последовательностей, даже несмотря на то, что AdaBeam может масштабироваться до больших последовательностей. Например, хотя модель прогнозирования экспрессии ДНК Enformer работает с последовательностями длиной около 200 000 нуклеотидов, мы ограничиваем проектирование всего 256 нуклеотидами.

NucleoBench-2

Краткое описание алгоритмов проектирования в NucleoBench. Ниже сплошной линии представлены алгоритмы проектирования, разработанные в данной работе.

Оценка

Мы оцениваем каждый алгоритм проектирования на основе итогового показателя пригодности полученной последовательности. Показатель пригодности определяется тем, насколько хорошо последовательность справилась с биологической задачей в соответствии с прогностической моделью. Для обеспечения объективности мы провели более 400 000 экспериментов, в которых каждому алгоритму проектирования было отведено фиксированное количество времени, и для каждой задачи использовались одни и те же 100 начальных последовательностей. Мы также измеряли скорость сходимости, отслеживая, как быстро каждый алгоритм находил свое наилучшее решение, поскольку более быстрые алгоритмы экономят ценное время и вычислительные ресурсы.

Мы охарактеризовали изменчивость производительности, измерив, насколько итоговый результат алгоритма зависит от случайности по сравнению с его начальной последовательностью. Мы количественно оценили влияние случайности алгоритма, повторно проведя эксперименты с пятью различными случайными начальными значениями. Для оценки влияния начальной точки мы проанализировали дисперсию итоговых результатов по 100 идентичным начальным последовательностям, заданным для каждого алгоритма. Мы использовали тест Фридмана, чтобы исследовать, существуют ли «внутренне сложные начальные последовательности», или последовательности, которые трудно оптимизировать для всех алгоритмов.

Для оценки распределения рангов производительности мы сравнили итоговую производительность каждого из девяти алгоритмов в каждом эксперименте бенчмарка NucleoBench для каждой уникальной комбинации задачи и начальной последовательности. Затем был присвоен ранговый «порядковый балл» от 0 до 8, где 0 соответствовал алгоритму с наилучшей производительностью, 1 — второму лучшему и так далее. Каждая фигура в виде скрипки строится путем агрегирования всех ранговых баллов, полученных одним алгоритмом в более чем 400 000 экспериментах, при этом ширина скрипки в любой точке показывает, как часто этот алгоритм достигал определенного ранга.

Распределение итоговых баллов для каждого алгоритма.

Распределение итоговых оценок для каждого алгоритма. По оси X отложен алгоритм проектирования, по оси Y — совокупная оценка порядка выполнения. Оценки порядка выполнения определяются путем присвоения каждому кортежу (задача, начальная последовательность, алгоритм проектирования) целого числа [0, 9] в соответствии с результатами всех конечных последовательностей для этой пары (задача, начальная последовательность). 0 означает наилучший результат. Совокупные оценки вычисляются путем усреднения всех таких оценок.

Среди существующих методов преобладали методы, основанные на градиентах. Однако мы обнаружили, что AdaBeam превзошёл их, продемонстрировав, что использование градиентов — не единственный путь к высочайшей производительности и масштабируемости.

AdaBeam превосходит предыдущие методы по нескольким ключевым параметрам:

  • Эффективность : В AdaLead этап выборки заменен более быстрым вычислением, что вдвое увеличивает скорость обработки длинных последовательностей.
  • Интеллектуальное исследование : оно использует значительно более эффективный «неупорядоченный» подход к определению мест редактирования последовательности.
  • Передовые инженерные решения : Использование конкатенации градиентов позволяет существенно сократить потребление памяти, что дает возможность применять их к масштабным моделям, таким как Enformer.

В 16 задачах NucleoBench алгоритм AdaBeam показал наилучшие результаты 11 раз. Он также оказался одним из самых быстрых алгоритмов, обеспечивающих высококачественное решение, демонстрируя превосходные масштабируемые свойства, необходимые для решения задач искусственного интеллекта следующего поколения в биологии.

Перспективы на будущее

Наш бенчмарк NucleoBench демонстрирует важность строгой, стандартизированной оценки и выявляет неожиданные результаты, такие как критическое влияние исходной последовательности и неэффективность некоторых устоявшихся функций алгоритма. Однако остаются значительные проблемы. Лучшие градиентные методы по-прежнему испытывают трудности с масштабированием до самых больших моделей и самых длинных последовательностей, а существенное повышение масштабируемости может быть достигнуто за счет улучшения разработки программного обеспечения. Хотя наш новый алгоритм AdaBeam устанавливает новый стандарт, будущая работа должна быть сосредоточена на алгоритмах, которые соответствуют биологическим ограничениям и улучшают масштабируемость.

Основной принцип нашей работы — приверженность биобезопасности и ответственным инновациям. Хотя AdaBeam представляет собой шаг вперед в разработке биологических последовательностей, он лишь улучшает оптимизацию в соответствии с уже существующей прогностической моделью. Другими словами, это оптимизатор, а не генератор; алгоритм может проектировать последовательности только для максимизации цели, определенной предоставленной пользователем прогностической моделью. Выпуская AdaBeam как инструмент с открытым исходным кодом, мы расширяем возможности исследователей, обеспечивая при этом центральное участие человека в разработке биологических молекул. Алгоритмы, подобные AdaBeam, могут помочь ученым разрабатывать более эффективные мРНК-вакцины, создавать более безопасные генные терапии CRISPR и разрабатывать новые методы лечения широкого спектра заболеваний, приближая к реальности перспективы разработки лекарств с помощью ИИ.

Благодарности

Данная работа представляет собой результат сотрудничества Джоэла Шора (Move37 Labs), Эрика Стрэнда (Move37 Labs, MIT) и Кори Й. Маклина (Google Research). Мы благодарим Сагера Госая, Даниэля Фридмана, Анну Льюис, Викрама Агарвала и Майкла Бреннера за их руководство, обсуждения и поддержку на протяжении всего проекта.

    Источник: research.google

    ✅ Найденные теги: AdaBeam, NucleoBench, Более, Дизайн, Интеллектуальный, новости, Нуклеиновые Кислоты

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    График сравнения иксекизумаба и тирзепатида: результаты лечения и изменения веса.
    Лекарь обсуждает влияние инсулина на старение. Совет специалиста с 40-летним опытом.
    Видеокарта Sapphire Nitro+ AMD Radeon RX 9070 XT, вид на упаковку и кулеры.
    Дворец в Ватикане с колоннами и статуями на фасаде на фоне синего неба.
    Цветные нейронные сети на черном фоне, изображение нейронов в мозге.
    Извержение вулкана: лава и дымящиеся камни на поверхности, горячий рельеф.
    Чем дорогой телескоп отличается от дешёвого
    Сыворотка Reviva Shot в лаборатории, яркие зелёные и фиолетовые оттенки.
    «Умные» очки с камерой, динамиками и ИИ-ассистентом
    Image Not Found
    График сравнения иксекизумаба и тирзепатида: результаты лечения и изменения веса.

    Добавка тирзепатида повысила эффективность иксекизумаба при псориатическом артрите с ожирением. Результаты получены в клинических испытаниях

    Результаты получены в клинических испытаниях Джозеф Мерола (Joseph Merola) из Техасского университета и его коллеги из Австрии, Великобритании и США провели клинические испытания и выяснили, что добавление агониста глюкагоноподобного пептида-1 (ГПП-1) и глюкозозависимого инсулинотропного пептида (ГИП) тирзепатида к…

    Апр 13, 2026
    Лекарь обсуждает влияние инсулина на старение. Совет специалиста с 40-летним опытом.

    Инсулин и старение — связь, которую не объясняют в поликлинике

    Представляете, мои дорогие — учёные уже давно знают, что скорость нашего старения напрямую связана с одним гормоном. Не с эстрогеном. Не с кортизолом. С инсулином. Тем самым, о котором вспоминают только при диабете. А ведь инсулин работает…

    Апр 13, 2026
    Видеокарта Sapphire Nitro+ AMD Radeon RX 9070 XT, вид на упаковку и кулеры.

    Зафиксирован девятый случай плавления 12V-2×6 на Radeon RX 9070 XT

    SAPPHIRE может быть недовольна своим решением относительно добавления 16-контактного разъёма дополнительного питания 12V-2×6 на свою лучшую видеокарту Radeon RX 9070 XT NITRO+, ведь с момента начала её продаж появился девятый зарегистрированный случай плавления. В этот раз на…

    Апр 13, 2026
    Чем дорогой телескоп отличается от дешёвого

    Чем дорогой телескоп отличается от дешёвого

    Потрясающие снимки в разных странах делают астрономы-любители. Это люди, которые просто ради удовольствия наблюдают за звёздным небом! И им сейчас помогают технические новинки. Которые делают прекрасное хобби совсем не сложным! Мог ли думать Гагарин (кстати, ровно 65…

    Апр 13, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых