Белки: мозаичный узор, управляющий ими всеми?
Введение в модель Mosaic Q и инструменты, которые можно использовать для ее количественной оценки и визуализации.
Делиться
Вкратце : машинное обучение позволяет разрабатывать приложения для прогнозирования и предсказания для все большего числа различных целей. Однако машинное обучение также используется в интеллектуальном анализе данных, то есть в выявлении скрытых закономерностей в самих данных. В этом смысле база данных RCSB PDB представляет собой ценный ресурс биологических данных, содержащий тысячи трехмерных структур белков, полученных с помощью различных экспериментальных методов. Среди них рентгеновская дифракция является методом, который обеспечивает более точное описание положения каждого атома в структуре белков. Анализируя набор данных структур белков, определенных с помощью рентгеновской дифракции (более 160 000 структур), можно обнаружить закономерность, если учитывать как положение аминокислот, так и их химический тип. Биологическая роль этой закономерности до сих пор полностью не изучена, но она, по-видимому, хорошо сохраняется в структурах самых разных организмов, от животных и растений до грибов и бактерий.
Начиная с самого начала
Путешествие началось несколько лет назад. В то время я занимался исследованиями бактериальных адгезинов — белков на поверхности бактерий, которые отвечают за взаимодействие, то есть фиксацию, бактерий на поверхностях, таких как наши зубы или другие бактерии, для образования биопленок (бактериальных сообществ). Помню, тогда меня еще впечатлял один из предметов, которые я изучал много лет назад в колледже: элегантная и прекрасная органическая химия. Поэтому, когда я наткнулся на классификацию аминокислот (строительных блоков белков) по их химическому типу, мне показалось естественным попытаться каким-то образом связать свойства адгезинов (их способность прилипать к поверхностям) с химическим типом аминокислот в их структуре.
Следуя совету другого аспиранта, я решил попытаться разработать метод количественной оценки организации аминокислот в соответствии с их химическим типом в трехмерной структуре адгезинов. Имея собственное образование в области биологии/биотехнологии, я бы не стал проводить количественную оценку напрямую, а скорее оценивал бы ее качественно. Но этот аспирант был физиком, и за обедом он убедил меня, что более серьезный подход предполагает количественную оценку.
Моя интуиция подсказывала, что если аминокислоты одного типа находятся вместе в трехмерной структуре (образуя кластеры), это будет способствовать специфическому химическому взаимодействию с поверхностями. Соответственно, целью было создание числового дескриптора кластеризации аминокислот в соответствии с их химическим типом (гидрофобный, полярный, кислый, основной, особый). Хотя это был побочный проект во время моей докторской программы, мои научные руководители помогли и предложили измерить расстояния между аминокислотами для создания этого дескриптора. Так я и сделал, и теперь у меня был числовой параметр, описывающий степень группирования аминокислот одного типа в трехмерной структуре белка.
Гипотеза была проста: параметр/дескриптор должен давать отличительные значения для адгезинов (по сравнению с другими белками), и это объяснило бы, почему адгезины действительно прилипают к поверхностям. Для этой цели у меня была в распоряжении целая база данных, содержащая тысячи записей о трехмерной структуре белков, база данных RCSB PDB. Кроме того, мощные библиотеки, такие как Biopython, значительно упростили извлечение и обработку данных, поэтому этап разработки, даже несмотря на отсутствие тогда генеративного ИИ, прошел относительно быстро.
То, что я обнаружил, оказалось не тем, что я искал. Для адгезинов не было обнаружено какого-либо отличительного значения дескриптора. Вместо этого, дескриптор, по-видимому, зависел только от количества аминокислот, следуя относительно прямой кривой. Это было скучно; я знал, что дескриптор будет иметь тенденцию увеличиваться с размером белка (количеством аминокислот), но я надеялся найти какие-то аномалии, например, что для адгезинов значение дескриптора будет заметно выше, чем в других семействах белков. Так что это был «провал», ничего интересного не обнаружилось. Примерно три дня я пересматривал процесс, пытаясь найти какую-нибудь ошибку в коде или в методологии. В конце концов, я получил эту простую прямую кривую только при построении графика зависимости дескриптора от размера белка (количества аминокислот).
Хорошо, но почему именно такая прямая кривая? На самом деле, при подгонке простой модели коэффициент детерминации R² был очень высоким (0,979). Это может что-то значить. И кроме того, почему именно такой наклон кривой, а не другой? Это может что-то значить — не об адгезинах, а, возможно, о белках в целом. Дело в том, что кривая показывает, что любые два белка, если у них одинаковое количество аминокислот, будут иметь очень похожее значение дескриптора. На первый взгляд это может показаться не таким уж важным, но давайте подумаем. Любые два белка? Это означает, например, один глобулярный, почти сферический белок и другой очень вытянутый. Или, например, белок у млекопитающих и другой у растений. Любая пара, или, точнее, любой набор белков с одинаковым количеством аминокислот, будет иметь одинаковое значение дескриптора. В этом что-то есть.
Модель Mosaic Q
Прошли месяцы и годы. У меня было всего одно уравнение, и этого было недостаточно. Завершая свою докторскую диссертацию, я решил обратиться за помощью, чтобы лучше понять это кажущееся сохраняющееся свойство. После разговоров с разными исследователями я познакомился с Хосе Антонио, профессором математики в Севильском университете. Мы обсуждали характеристику формы и размера кластеров аминокислот одного типа в трехмерной структуре белков и то, как это можно связать с эмпирическим уравнением. Однако задача оказалась непростой, поскольку определить, когда кластер начинается и заканчивается в трехмерной структуре белков, не так-то просто. Например, одну группу аминокислот в трехмерной структуре можно интерпретировать как один большой кластер неправильной формы, или, скорее, как два или более меньших, сферических кластера, которые просто оказались близко друг к другу в структуре. Тогда ему пришла в голову идея. Вместо того чтобы пытаться вывести модель размера и формы кластера из экспериментальных данных, почему бы не создать разные модели кластеров и посмотреть, какая из них лучше всего соответствует результатам?
Это включало генерацию и выполнение множества стохастических симуляций, в которых тестировались различные комбинации размеров и форм кластеров. Для простоты мы предположили, что наряду с гидрофобным ядром (где все гидрофобные аминокислоты группируются вместе), остальные аминокислоты (полярные, кислые, основные, специальные) всегда группируются вместе в соответствии со своим типом в кластеры одинакового размера и формы, хотя эти кластеры были случайным образом расположены по всей структуре белка. Другие переменные, такие как общий размер и форма белка, также определялись стохастически, чтобы обеспечить достаточное разнообразие структур в образцах. В то же время были внедрены различные механизмы контроля качества для генерации достаточно реалистичных структур, обеспечивающие, например, нормальные расстояния между аминокислотами или частоту встречаемости аминокислот. Для каждой анализируемой комбинации размера/формы кластеров было сгенерировано 10 000 искусственных структур, и был произведен расчет дескриптора (теперь называемого Q).
Результаты оказались обнадеживающими. Каждая комбинация размера/формы кластеров давала отчетливую кривую при построении графика Q в зависимости от количества аминокислот (n). Одна комбинация (форма I / 8 аминокислот на кластер) очень хорошо соответствовала экспериментальным данным. Конечно, эта модель не описывает кластеризацию аминокислот в белках в природе, но, по крайней мере, она является хорошим приближением. Более того, мы визуализировали несколько белков, окрашивающих аминокислоты в соответствии с их типом, и комбинация формы I / 8 аминокислот показалась вполне разумной. Но что еще важнее, главный вывод из моделирования заключается в том, что оно предоставляет основу для понимания того, что реальная экспериментальная кривая Q в зависимости от n, обнаруженная в природе, не является тривиальной, а зависит от размера и формы кластеров. Другими словами, существует определенный способ кластеризации аминокислот в трехмерной структуре белков, который можно количественно оценить с помощью Q. Мы называем это мозаичной моделью Q. Теоретически могут существовать различные мозаичные модели, но результаты показывают, что на практике существует только одна.
На следующих изображениях представлен общий обзор анализа. Здесь показано, как связаны мозаика, ее количественная оценка с помощью Q и сохраняющаяся кривая (R2 = 0,979), полученная на основе более чем 160 000 экспериментальных структур.

Следует отметить, что исходный дескриптор Q количественно оценивал только кластеры гидрофобных, полярных, кислых и основных остатков (а не особые остатки). Другое альтернативное определение дескриптора (названное Q_alt) также включает в свои вычисления кластеры особых остатков.
С другой стороны, здесь представлен график кривых, полученных в результате стохастического моделирования, показывающий, как одна конфигурация наилучшим образом соответствует экспериментальным результатам, но, что более важно, как изменяется их наклон в зависимости от конфигурации (размера и формы) кластеров в каждой из них.

Делимся результатами анализа с сообществом.
В некоторых областях биологии и экспериментальных наук в целом анализ становится более глубоким, когда над ним работают несколько соавторов. Поэтому мы начали создавать инструменты и визуальные материалы, чтобы любой желающий мог самостоятельно проверить наличие мозаичного Q-паттерна. В этой работе ключевую роль сыграл третий член команды (биолог Мария Анхелес).
Мы начали с того, что показали наглядную визуализацию множества белковых структур, чтобы можно было оценить мозаичный узор. Когда белки отображаются с каждой аминокислотой, окрашенной в соответствии с её химическим типом, узор становится видимым для глаза. Например, вот несколько примеров известных белков, а именно гемоглобина, молекулярной машины CRISPR-Cas9, опухолевого супрессора p53 и небольшого фермента лизоцима. Мозаичный узор, по-видимому, присутствует у большинства белков, в том числе и в этих известных случаях:

Помимо собственных визуализированных изображений, анализ проводился с использованием подхода, основанного на сотрудничестве. В частности, любой желающий может визуализировать белки по своему выбору и добавлять их в качестве дополнительного подтверждения мозаичного Q-паттерна, создавая общее хранилище изображений. Цель состоит в том, чтобы проверить наличие мозаичного паттерна, то есть, группируются ли оставшиеся аминокислоты, помимо гидрофобного ядра (белого цвета), в кластеры схожего размера и формы по всей трехмерной структуре. По состоянию на июнь 2026 года более 50 добровольцев приняли участие в качестве независимых наблюдателей, визуализируя структуры по своему выбору из базы данных RCSB с помощью программного обеспечения с открытым исходным кодом Jmol. Это сотрудничество добавляет в исследование уровень независимости, поскольку каждый наблюдатель выбирает свой белок для визуализации из тысяч и тысяч структур, присутствующих в настоящее время в базе данных RCSB.
Для тех, кто предпочитает вычислять, а не визуализировать, доступен набор инструментов для вычисления Q и Q_alt (PyPI, bio.tools) с помощью пакета protein-mosaic-q. Базовое использование включает следующие строки:
from mosaicq import calculate_q, calculate_q_alt q = calculate_q("protein.pdb") q_alt = calculate_q_alt("protein.cif")
Как уже говорилось, Q охватывает четыре основные химические группы (гидрофобные, полярные, кислые, основные). Q_alt расширяет расчет, включая специальные аминокислоты. Библиотека построена на основе Biopython и требует Python ≥ 3.9. Этот блокнот Colab позволяет использовать ее без какой-либо локальной настройки.
Исследование также было принято и интегрировано в биоинформатическую платформу Galaxy Europe в раздел «Протеомика». Там пользователи могут загружать любые файлы pdb или mmCIF, запускать вычисления в браузере и скачивать результаты Q, Q_alt и изображения. Репозиторий изображений также зарегистрирован в FAIRsharing, что обеспечивает ему постоянную, цитируемую запись (см. ссылки).
Следует отметить несколько оговорок. Анализ охватывает только рентгеновские структуры, которые обеспечивают наивысшее разрешение по сравнению с другими методами. Тем не менее, необходимы дальнейшие исследования структур, полученных с помощью других экспериментальных методов, таких как криоэлектронная микроскопия или ЯМР, или даже 3D-структур, предсказанных вычислительным путем. С другой стороны, хотя математический сигнал мозаичного рисунка очевиден, особенно в контексте биологии, все же наблюдается некоторая ограниченная вариация дескриптора Q среди белков. Остается открытым вопрос, является ли эта небольшая вариация просто статистическим шумом или же она действительно была отобрана в процессе эволюции.
В конечном итоге, разработанные инструменты доступны для использования и расширения любым желающим. Остается множество вопросов, особенно касающихся биологической роли этого паттерна и того, как он влияет на белково-белковые взаимодействия и взаимодействия с другими биомолекулами. Это представляет интерес, поскольку исследования в этой области в конечном итоге могут помочь в разработке лекарств на основе белков или лекарств, нацеленных на белки. Если вас заинтересовал этот паттерн или вы считаете, что можете найти исключения из него, приведенные выше инструменты — хорошее место для начала.
Ссылки
[1] FAIRsharing.org, Репозиторий проекта Proteins Mosaic Q (2026), DOI: 10.25504/FAIRsharing.9f9f9c
[2] Х.М. Берман и др., Банк данных белков (2000), Исследования нуклеиновых кислот 28(1):235–242
[3] PJA Cock et al., Biopython: свободно доступные инструменты Python для вычислительной молекулярной биологии и биоинформатики (2009), Bioinformatics 25(11):1422–1423
[4] Galaxy Europe, инструмент Protein Mosaic Q (2026), usegalaxy.eu
[5] Команда разработчиков Jmol, Jmol: программа просмотра химических структур в 3D с открытым исходным кодом на Java (2024), jmol.org
Библиотека и исходный код распространяются под лицензией MIT.
Франсиско Хавьер Лобо-Кабрера Посмотреть все работы Франсиско Хавьера Лобо-Кабреры
Источник: towardsdatascience.com
Оцените материал:
Похожие записи
TurboQuant: оправдывают ли себя показатели сжатия и производительности?
16.05.2026
На МКС прибыли капитан американских ВМС и французская военная вертолетчица
15.02.2026
По сообщениям, новое приложение Siri от Apple будет предлагать функцию автоматического удаления сообщений в чате.
19.05.2026Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
