Компания OpenProtein.AI, основанная Тристаном Беплером (PhD '20) и бывшим профессором Массачусетского технологического института Тимом Лу (PhD '07), предлагает исследователям модели с открытым исходным кодом и другие инструменты для белковой инженерии.
OpenProtein.AI помогает биологам оставаться на переднем крае искусственного интеллекта, предлагая платформу для белковой инженерии, не требующую написания кода. «Мы очень старались сделать платформу универсальным набором инструментов», — говорит Тристан Беплер. Изображение: Предоставлено исследователями; MIT News
Искусственный интеллект уже доказывает свою способность ускорять разработку лекарств и улучшать наше понимание болезней. Но чтобы превратить ИИ в новые методы лечения, нам необходимо предоставить ученым доступ к новейшим и наиболее мощным моделям.
Проблема в том, что большинство ученых не являются экспертами в области машинного обучения. Теперь компания OpenProtein.AI помогает ученым оставаться на переднем крае искусственного интеллекта с помощью платформы, не требующей написания кода, которая предоставляет им доступ к мощным базовым моделям и набору инструментов для проектирования белков, прогнозирования структуры и функций белков, а также обучения моделей.
Компания, основанная Тристаном Беплером, доктором философии (выпуск 2020 года), и бывшим доцентом Массачусетского технологического института Тимом Лу, доктором философии (выпуск 2007 года), уже предоставляет исследователям в фармацевтических и биотехнологических компаниях всех размеров свои инструменты, включая разработанные внутри компании базовые модели для белковой инженерии. OpenProtein.AI также бесплатно предоставляет свою платформу ученым в академической среде.
«Сейчас действительно захватывающее время, потому что эти модели могут не только повысить эффективность белковой инженерии — что сократит циклы разработки терапевтических и промышленных препаратов — но и расширить наши возможности по проектированию новых белков с определенными свойствами», — говорит Беплер. «Мы также думаем о применении этих подходов к небелковым процессам. В целом, мы создаем язык для описания биологических систем».
Развитие биологии с помощью ИИ.
Беплер приехал в Массачусетский технологический институт в 2014 году в рамках докторской программы по вычислительной и системной биологии, обучаясь у Бонни Бергер, профессора прикладной математики имени Саймонса в MIT. Именно там он осознал, как мало мы понимаем о молекулах, составляющих строительные блоки биологии.
«Мы недостаточно хорошо охарактеризовали биомолекулы и белки, чтобы создать качественные прогностические модели того, что, скажем, будет делать вся геномная цепь или как будет вести себя сеть белковых взаимодействий», — вспоминает Беплер. «Это пробудило во мне интерес к изучению белков на более детальном уровне».
Беплер начал исследовать способы предсказания цепочек аминокислот, составляющих белки, путем анализа эволюционных данных. Это было еще до того, как Google выпустил AlphaFold, мощную модель предсказания структуры белков. Эта работа привела к созданию одной из первых генеративных моделей искусственного интеллекта для понимания и проектирования белков — того, что команда называет моделью белкового языка.
«Меня очень заинтересовала классическая модель белков и взаимосвязь между их последовательностью, структурой и функцией. Мы плохо понимаем эти связи», — говорит Беплер. «Так как же мы можем использовать эти базовые модели, чтобы пропустить компонент «структуры» и перейти непосредственно от последовательности к функции?»
Получив докторскую степень в 2020 году, Беплер поступил в лабораторию Лу на кафедре биологической инженерии Массачусетского технологического института в качестве постдока.
«Примерно в это время начала набирать популярность идея интеграции ИИ с биологией», — вспоминает Лу. «Тристан помог нам создать более совершенные вычислительные модели для биологического проектирования. Мы также поняли, что существует разрыв между самыми передовыми доступными инструментами и биологами, которые хотели бы использовать эти технологии, но не умеют программировать. OpenProtein возник из идеи расширения доступа к этим инструментам».
В рамках своей докторской диссертации Беплер работал на передовой линии развития искусственного интеллекта. Он знал, что эта технология может помочь ученым ускорить свою работу.
«Мы начали с идеи создания универсальной платформы для моделирования белков с использованием машинного обучения в реальном времени», — говорит Беплер. «Мы хотели создать что-то удобное для пользователя, потому что идеи машинного обучения довольно эзотеричны. Они требуют реализации, графических процессоров, тонкой настройки, разработки библиотек последовательностей. Особенно в то время биологам приходилось многому учиться».
Платформа OpenProtein, напротив, предлагает интуитивно понятный веб-интерфейс, позволяющий биологам загружать данные и проводить исследования в области белковой инженерии с использованием машинного обучения. Она включает в себя ряд моделей с открытым исходным кодом, в том числе PoET, флагманскую модель языка белков OpenProtein.
PoET, сокращение от Protein Evolutionary Transformer (Эволюционный трансформер белков), был обучен на группах белков для генерации наборов родственных белков. Беплер и его коллеги показали, что он может обобщать эволюционные ограничения на белки и включать новую информацию о последовательностях белков без переобучения, что позволяет другим исследователям добавлять экспериментальные данные для улучшения модели.
«Исследователи могут использовать свои собственные данные для обучения моделей и оптимизации белковых последовательностей, а затем использовать наши другие инструменты для анализа этих белков», — говорит Беплер. «Люди создают библиотеки белковых последовательностей in silico [на компьютерах], а затем запускают их через прогностические модели для получения валидации и структурных предикторов. По сути, это интерфейс без необходимости написания кода, но у нас также есть API для тех, кто хочет получить к нему доступ с помощью кода».
Эти модели помогают исследователям быстрее разрабатывать белки, а затем определять, какие из них достаточно перспективны для дальнейших лабораторных исследований. Исследователи также могут вводить интересующие их белки, и модели могут генерировать новые белки со схожими свойствами.
С момента своего основания команда OpenProtein постоянно добавляет на свою платформу инструменты для исследователей, независимо от размера их лабораторий или имеющихся ресурсов.
«Мы очень старались сделать платформу универсальным набором инструментов», — говорит Беплер. «В ней есть конкретные рабочие процессы, но она не привязана к какой-либо одной функции белка или классу белков. Одно из главных преимуществ этих моделей заключается в том, что они очень хорошо понимают белки в целом. Они изучают все пространство возможных белков».
Создание возможностей для терапии следующего поколения
Крупная фармацевтическая компания Boehringer Ingelheim начала использовать платформу OpenProtein в начале 2025 года. Недавно компании объявили о расширении сотрудничества, в рамках которого платформа и модели OpenProtein будут интегрированы в работу Boehringer Ingelheim по разработке белков для лечения таких заболеваний, как рак и аутоиммунные или воспалительные заболевания.
В прошлом году OpenProtein также выпустила новую версию своей модели белкового языка, PoET-2, которая превосходит по производительности гораздо более крупные модели, используя при этом лишь малую часть вычислительных ресурсов и экспериментальных данных.
«Мы действительно хотим решить вопрос о том, как мы описываем белки, — говорит Беплер. — Какой осмысленный, специфичный для данной области язык ограничений, описывающих белки, мы используем при их создании?» Как мы можем ввести больше эволюционных ограничений? Как мы можем описать ферментативную реакцию, которую осуществляет белок, таким образом, чтобы модель могла генерировать последовательности для выполнения этой реакции?
В дальнейшем, Основатели надеются создать модели, учитывающие изменчивый и взаимосвязанный характер функционирования белков.
«Меня особенно интересует возможность выйти за рамки простого анализа процессов связывания белков и использовать эти модели для прогнозирования и проектирования динамических характеристик, когда белок должен одновременно задействовать два, три или четыре биологических механизма или изменять свою функцию после связывания», — говорит Лу, который в настоящее время выполняет консультативную роль в компании.
По мере стремительного развития искусственного интеллекта, OpenProtein продолжает видеть свою миссию в предоставлении ученым лучших инструментов для более быстрой разработки новых методов лечения.
«По мере усложнения работы, с учетом таких подходов, как белковая логика и динамическая терапия, существующие экспериментальные инструменты становятся ограниченными», — говорит Лу. «Очень важно создавать открытые экосистемы вокруг ИИ и биологии. Существует риск того, что ресурсы ИИ могут быть настолько сконцентрированы, что средний исследователь не сможет ими пользоваться. Открытый доступ чрезвычайно важен для прогресса в научной сфере».
Источник: news.mit.edu

















