Архив рубрики ~Обо всем~

Белки: мозаичный узор, управляющий ими всеми?

Белки: мозаичный узор, управляющий ими всеми?
Белки: мозаичный узор, управляющий ими всеми?

Введение в модель Mosaic Q и инструменты, которые можно использовать для ее количественной оценки и визуализации.

Делиться

Визуализация мозаичного Q-паттерна в белке (идентификатор PDB 2BA1). Аминокислоты окрашены в соответствии с их химическим типом (гидрофобные: белый, полярные: зеленый, кислые: оранжевый, основные: синий, специальные: голубой).

Вкратце : машинное обучение позволяет разрабатывать приложения для прогнозирования и предсказания для все большего числа различных целей. Однако машинное обучение также используется в интеллектуальном анализе данных, то есть в выявлении скрытых закономерностей в самих данных. В этом смысле база данных RCSB PDB представляет собой ценный ресурс биологических данных, содержащий тысячи трехмерных структур белков, полученных с помощью различных экспериментальных методов. Среди них рентгеновская дифракция является методом, который обеспечивает более точное описание положения каждого атома в структуре белков. Анализируя набор данных структур белков, определенных с помощью рентгеновской дифракции (более 160 000 структур), можно обнаружить закономерность, если учитывать как положение аминокислот, так и их химический тип. Биологическая роль этой закономерности до сих пор полностью не изучена, но она, по-видимому, хорошо сохраняется в структурах самых разных организмов, от животных и растений до грибов и бактерий.

Начиная с самого начала

Путешествие началось несколько лет назад. В то время я занимался исследованиями бактериальных адгезинов — белков на поверхности бактерий, которые отвечают за взаимодействие, то есть фиксацию, бактерий на поверхностях, таких как наши зубы или другие бактерии, для образования биопленок (бактериальных сообществ). Помню, тогда меня еще впечатлял один из предметов, которые я изучал много лет назад в колледже: элегантная и прекрасная органическая химия. Поэтому, когда я наткнулся на классификацию аминокислот (строительных блоков белков) по их химическому типу, мне показалось естественным попытаться каким-то образом связать свойства адгезинов (их способность прилипать к поверхностям) с химическим типом аминокислот в их структуре.

Следуя совету другого аспиранта, я решил попытаться разработать метод количественной оценки организации аминокислот в соответствии с их химическим типом в трехмерной структуре адгезинов. Имея собственное образование в области биологии/биотехнологии, я бы не стал проводить количественную оценку напрямую, а скорее оценивал бы ее качественно. Но этот аспирант был физиком, и за обедом он убедил меня, что более серьезный подход предполагает количественную оценку.

Моя интуиция подсказывала, что если аминокислоты одного типа находятся вместе в трехмерной структуре (образуя кластеры), это будет способствовать специфическому химическому взаимодействию с поверхностями. Соответственно, целью было создание числового дескриптора кластеризации аминокислот в соответствии с их химическим типом (гидрофобный, полярный, кислый, основной, особый). Хотя это был побочный проект во время моей докторской программы, мои научные руководители помогли и предложили измерить расстояния между аминокислотами для создания этого дескриптора. Так я и сделал, и теперь у меня был числовой параметр, описывающий степень группирования аминокислот одного типа в трехмерной структуре белка.

Гипотеза была проста: параметр/дескриптор должен давать отличительные значения для адгезинов (по сравнению с другими белками), и это объяснило бы, почему адгезины действительно прилипают к поверхностям. Для этой цели у меня была в распоряжении целая база данных, содержащая тысячи записей о трехмерной структуре белков, база данных RCSB PDB. Кроме того, мощные библиотеки, такие как Biopython, значительно упростили извлечение и обработку данных, поэтому этап разработки, даже несмотря на отсутствие тогда генеративного ИИ, прошел относительно быстро.

То, что я обнаружил, оказалось не тем, что я искал. Для адгезинов не было обнаружено какого-либо отличительного значения дескриптора. Вместо этого, дескриптор, по-видимому, зависел только от количества аминокислот, следуя относительно прямой кривой. Это было скучно; я знал, что дескриптор будет иметь тенденцию увеличиваться с размером белка (количеством аминокислот), но я надеялся найти какие-то аномалии, например, что для адгезинов значение дескриптора будет заметно выше, чем в других семействах белков. Так что это был «провал», ничего интересного не обнаружилось. Примерно три дня я пересматривал процесс, пытаясь найти какую-нибудь ошибку в коде или в методологии. В конце концов, я получил эту простую прямую кривую только при построении графика зависимости дескриптора от размера белка (количества аминокислот).

Хорошо, но почему именно такая прямая кривая? На самом деле, при подгонке простой модели коэффициент детерминации R² был очень высоким (0,979). Это может что-то значить. И кроме того, почему именно такой наклон кривой, а не другой? Это может что-то значить — не об адгезинах, а, возможно, о белках в целом. Дело в том, что кривая показывает, что любые два белка, если у них одинаковое количество аминокислот, будут иметь очень похожее значение дескриптора. На первый взгляд это может показаться не таким уж важным, но давайте подумаем. Любые два белка? Это означает, например, один глобулярный, почти сферический белок и другой очень вытянутый. Или, например, белок у млекопитающих и другой у растений. Любая пара, или, точнее, любой набор белков с одинаковым количеством аминокислот, будет иметь одинаковое значение дескриптора. В этом что-то есть.

Модель Mosaic Q

Прошли месяцы и годы. У меня было всего одно уравнение, и этого было недостаточно. Завершая свою докторскую диссертацию, я решил обратиться за помощью, чтобы лучше понять это кажущееся сохраняющееся свойство. После разговоров с разными исследователями я познакомился с Хосе Антонио, профессором математики в Севильском университете. Мы обсуждали характеристику формы и размера кластеров аминокислот одного типа в трехмерной структуре белков и то, как это можно связать с эмпирическим уравнением. Однако задача оказалась непростой, поскольку определить, когда кластер начинается и заканчивается в трехмерной структуре белков, не так-то просто. Например, одну группу аминокислот в трехмерной структуре можно интерпретировать как один большой кластер неправильной формы, или, скорее, как два или более меньших, сферических кластера, которые просто оказались близко друг к другу в структуре. Тогда ему пришла в голову идея. Вместо того чтобы пытаться вывести модель размера и формы кластера из экспериментальных данных, почему бы не создать разные модели кластеров и посмотреть, какая из них лучше всего соответствует результатам?

Это включало генерацию и выполнение множества стохастических симуляций, в которых тестировались различные комбинации размеров и форм кластеров. Для простоты мы предположили, что наряду с гидрофобным ядром (где все гидрофобные аминокислоты группируются вместе), остальные аминокислоты (полярные, кислые, основные, специальные) всегда группируются вместе в соответствии со своим типом в кластеры одинакового размера и формы, хотя эти кластеры были случайным образом расположены по всей структуре белка. Другие переменные, такие как общий размер и форма белка, также определялись стохастически, чтобы обеспечить достаточное разнообразие структур в образцах. В то же время были внедрены различные механизмы контроля качества для генерации достаточно реалистичных структур, обеспечивающие, например, нормальные расстояния между аминокислотами или частоту встречаемости аминокислот. Для каждой анализируемой комбинации размера/формы кластеров было сгенерировано 10 000 искусственных структур, и был произведен расчет дескриптора (теперь называемого Q).

Результаты оказались обнадеживающими. Каждая комбинация размера/формы кластеров давала отчетливую кривую при построении графика Q в зависимости от количества аминокислот (n). Одна комбинация (форма I / 8 аминокислот на кластер) очень хорошо соответствовала экспериментальным данным. Конечно, эта модель не описывает кластеризацию аминокислот в белках в природе, но, по крайней мере, она является хорошим приближением. Более того, мы визуализировали несколько белков, окрашивающих аминокислоты в соответствии с их типом, и комбинация формы I / 8 аминокислот показалась вполне разумной. Но что еще важнее, главный вывод из моделирования заключается в том, что оно предоставляет основу для понимания того, что реальная экспериментальная кривая Q в зависимости от n, обнаруженная в природе, не является тривиальной, а зависит от размера и формы кластеров. Другими словами, существует определенный способ кластеризации аминокислот в трехмерной структуре белков, который можно количественно оценить с помощью Q. Мы называем это мозаичной моделью Q. Теоретически могут существовать различные мозаичные модели, но результаты показывают, что на практике существует только одна.

На следующих изображениях представлен общий обзор анализа. Здесь показано, как связаны мозаика, ее количественная оценка с помощью Q и сохраняющаяся кривая (R2 = 0,979), полученная на основе более чем 160 000 экспериментальных структур.

ba8d9971f63323ebd3251b7af6c13222
Обзор эмпирического уравнения между дескриптором Q и числом остатков (n). Гидрофобные аминокислоты обозначены белым цветом, полярные — зеленым, кислые — оранжевым, основные — синим, а особые — голубым. Результаты показывают, что значение Q зависит только от числа остатков, а не от формы белка, организма-источника и т. д. Было проанализировано более 160 000 рентгеноструктурных данных, доступных в базе данных RCSB. Записи, где Q/n > 1,032 Å (что соответствует < 0,07% от общего числа), были отброшены как выбросы. Данные RCSB PDB находятся в общественном достоянии (CC0) и доступны для любого использования. Изображение предоставлено авторами.

Следует отметить, что исходный дескриптор Q количественно оценивал только кластеры гидрофобных, полярных, кислых и основных остатков (а не особые остатки). Другое альтернативное определение дескриптора (названное Q_alt) также включает в свои вычисления кластеры особых остатков.

С другой стороны, здесь представлен график кривых, полученных в результате стохастического моделирования, показывающий, как одна конфигурация наилучшим образом соответствует экспериментальным результатам, но, что более важно, как изменяется их наклон в зависимости от конфигурации (размера и формы) кластеров в каждой из них.

737abe3256687cc130e60ed7f75185c1
Стохастические симуляции помогают понять экспериментальные результаты. Серия стохастических симуляций демонстрирует, что форма экспериментальной кривой нетривиальна и зависит от размера и морфологии кластеров аминокислот, поскольку в каждом случае полученный наклон различен. Кроме того, они представляют собой хорошую модель для аппроксимации мозаики в реальных структурах. Изображение предоставлено авторами.

Делимся результатами анализа с сообществом.

В некоторых областях биологии и экспериментальных наук в целом анализ становится более глубоким, когда над ним работают несколько соавторов. Поэтому мы начали создавать инструменты и визуальные материалы, чтобы любой желающий мог самостоятельно проверить наличие мозаичного Q-паттерна. В этой работе ключевую роль сыграл третий член команды (биолог Мария Анхелес).

Мы начали с того, что показали наглядную визуализацию множества белковых структур, чтобы можно было оценить мозаичный узор. Когда белки отображаются с каждой аминокислотой, окрашенной в соответствии с её химическим типом, узор становится видимым для глаза. Например, вот несколько примеров известных белков, а именно гемоглобина, молекулярной машины CRISPR-Cas9, опухолевого супрессора p53 и небольшого фермента лизоцима. Мозаичный узор, по-видимому, присутствует у большинства белков, в том числе и в этих известных случаях:

10a40cd9c3058be488d01bfc8b3c08d5
Прямая визуализация мозаичного Q-структуры в некоторых известных белках. Наличие характерного, неслучайного расположения аминокислот в соответствии с их химическим типом (модель мозаичного Q-структуры) также можно оценить непосредственно визуально. Здесь представлены некоторые примеры известных белков, на которых остатки окрашены в соответствии с их химическим типом. Таким образом, можно оценить наличие типичных кластеров мозаики. Изображение предоставлено авторами.

Помимо собственных визуализированных изображений, анализ проводился с использованием подхода, основанного на сотрудничестве. В частности, любой желающий может визуализировать белки по своему выбору и добавлять их в качестве дополнительного подтверждения мозаичного Q-паттерна, создавая общее хранилище изображений. Цель состоит в том, чтобы проверить наличие мозаичного паттерна, то есть, группируются ли оставшиеся аминокислоты, помимо гидрофобного ядра (белого цвета), в кластеры схожего размера и формы по всей трехмерной структуре. По состоянию на июнь 2026 года более 50 добровольцев приняли участие в качестве независимых наблюдателей, визуализируя структуры по своему выбору из базы данных RCSB с помощью программного обеспечения с открытым исходным кодом Jmol. Это сотрудничество добавляет в исследование уровень независимости, поскольку каждый наблюдатель выбирает свой белок для визуализации из тысяч и тысяч структур, присутствующих в настоящее время в базе данных RCSB.

Для тех, кто предпочитает вычислять, а не визуализировать, доступен набор инструментов для вычисления Q и Q_alt (PyPI, bio.tools) с помощью пакета protein-mosaic-q. Базовое использование включает следующие строки:

 from mosaicq import calculate_q, calculate_q_alt q = calculate_q("protein.pdb") q_alt = calculate_q_alt("protein.cif")

Как уже говорилось, Q охватывает четыре основные химические группы (гидрофобные, полярные, кислые, основные). Q_alt расширяет расчет, включая специальные аминокислоты. Библиотека построена на основе Biopython и требует Python ≥ 3.9. Этот блокнот Colab позволяет использовать ее без какой-либо локальной настройки.

Исследование также было принято и интегрировано в биоинформатическую платформу Galaxy Europe в раздел «Протеомика». Там пользователи могут загружать любые файлы pdb или mmCIF, запускать вычисления в браузере и скачивать результаты Q, Q_alt и изображения. Репозиторий изображений также зарегистрирован в FAIRsharing, что обеспечивает ему постоянную, цитируемую запись (см. ссылки).

Следует отметить несколько оговорок. Анализ охватывает только рентгеновские структуры, которые обеспечивают наивысшее разрешение по сравнению с другими методами. Тем не менее, необходимы дальнейшие исследования структур, полученных с помощью других экспериментальных методов, таких как криоэлектронная микроскопия или ЯМР, или даже 3D-структур, предсказанных вычислительным путем. С другой стороны, хотя математический сигнал мозаичного рисунка очевиден, особенно в контексте биологии, все же наблюдается некоторая ограниченная вариация дескриптора Q среди белков. Остается открытым вопрос, является ли эта небольшая вариация просто статистическим шумом или же она действительно была отобрана в процессе эволюции.

В конечном итоге, разработанные инструменты доступны для использования и расширения любым желающим. Остается множество вопросов, особенно касающихся биологической роли этого паттерна и того, как он влияет на белково-белковые взаимодействия и взаимодействия с другими биомолекулами. Это представляет интерес, поскольку исследования в этой области в конечном итоге могут помочь в разработке лекарств на основе белков или лекарств, нацеленных на белки. Если вас заинтересовал этот паттерн или вы считаете, что можете найти исключения из него, приведенные выше инструменты — хорошее место для начала.

Ссылки

[1] FAIRsharing.org, Репозиторий проекта Proteins Mosaic Q (2026), DOI: 10.25504/FAIRsharing.9f9f9c
[2] Х.М. Берман и др., Банк данных белков (2000), Исследования нуклеиновых кислот 28(1):235–242
[3] PJA Cock et al., Biopython: свободно доступные инструменты Python для вычислительной молекулярной биологии и биоинформатики (2009), Bioinformatics 25(11):1422–1423
[4] Galaxy Europe, инструмент Protein Mosaic Q (2026), usegalaxy.eu
[5] Команда разработчиков Jmol, Jmol: программа просмотра химических структур в 3D с открытым исходным кодом на Java (2024), jmol.org

Библиотека и исходный код распространяются под лицензией MIT.

Франсиско Хавьер Лобо-Кабрера Посмотреть все работы Франсиско Хавьера Лобо-Кабреры

Источник: towardsdatascience.com

❌ Нет похожих статей с такими тегами

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Лента новостей~ Ботаники утверждают, что искусственный интеллект может помочь выиграть «гонку против вымирания» жизненно важных растений. Архив рубрики ~Лента новостей~ Бренд Digma начал продажи устройств российской сборки Архив рубрики ~Лента новостей~ Новая система оптимизации на основе ИИ превосходит Claude Code и Codex в 2,5 раза при том же вычислительном бюджете. Архив рубрики ~Лента новостей~ 15% прод-кода в Block пишут AI-агенты: как устроен их парк ботов в Slack — и что из этого украсть Архив рубрики ~Лента новостей~ Кошки в доме не повлияли на тяжесть течения астмы у детей. Частота обострений тоже не изменилась Архив рубрики ~Лента новостей~ «Опасные» модели ИИ появятся в любом случае. Новости робототехники Компания Waymo отзывает около 4000 роботакси, чтобы предотвратить их въезд в зоны проведения дорожных работ. Архив рубрики ~Лента новостей~ Полный список лучших голосовых команд Google для вашего дома. Архив рубрики ~Лента новостей~ Физики получили новых «котов Шредингера» Архив рубрики ~Лента новостей~ Мобильный клиент Р7 команда для iOS и Android получил обновление Архив рубрики ~Лента новостей~ По сообщениям, стартап Baseten, занимающийся разработкой решений для искусственного интеллекта, привлек 1,5 миллиарда долларов спустя несколько месяцев после последнего крупного раунда финансирования. Архив рубрики ~Лента новостей~ Новая аналитика использования и обновленные средства контроля расходов для предприятий | OpenAI Архив рубрики ~Лента новостей~ Улучшение аналитики в сфере здравоохранения в ChatGPT | OpenAI Архив рубрики ~Лента новостей~ Нейросети как интеллектуальная прослойка между людьми Архив рубрики ~Лента новостей~ Ботаники утверждают, что искусственный интеллект может помочь выиграть «гонку против вымирания» жизненно важных растений. Архив рубрики ~Лента новостей~ Бренд Digma начал продажи устройств российской сборки Архив рубрики ~Лента новостей~ Новая система оптимизации на основе ИИ превосходит Claude Code и Codex в 2,5 раза при том же вычислительном бюджете. Архив рубрики ~Лента новостей~ 15% прод-кода в Block пишут AI-агенты: как устроен их парк ботов в Slack — и что из этого украсть Архив рубрики ~Лента новостей~ Кошки в доме не повлияли на тяжесть течения астмы у детей. Частота обострений тоже не изменилась Архив рубрики ~Лента новостей~ «Опасные» модели ИИ появятся в любом случае. Новости робототехники Компания Waymo отзывает около 4000 роботакси, чтобы предотвратить их въезд в зоны проведения дорожных работ. Архив рубрики ~Лента новостей~ Полный список лучших голосовых команд Google для вашего дома. Архив рубрики ~Лента новостей~ Физики получили новых «котов Шредингера» Архив рубрики ~Лента новостей~ Мобильный клиент Р7 команда для iOS и Android получил обновление Архив рубрики ~Лента новостей~ По сообщениям, стартап Baseten, занимающийся разработкой решений для искусственного интеллекта, привлек 1,5 миллиарда долларов спустя несколько месяцев после последнего крупного раунда финансирования. Архив рубрики ~Лента новостей~ Новая аналитика использования и обновленные средства контроля расходов для предприятий | OpenAI Архив рубрики ~Лента новостей~ Улучшение аналитики в сфере здравоохранения в ChatGPT | OpenAI Архив рубрики ~Лента новостей~ Нейросети как интеллектуальная прослойка между людьми

Оставить комментарий