Image

Глубокое обучение в науке вредно без глубокой проверки фактов

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).

Однако если вы проделаете кропотливую работу по анализу чужой опубликованной работы и обнаружите, что она полна серьёзных ошибок, в том числе сотнями некорректных прогнозов, то можете опубликовать на bioRxiv препринт, который не получит и доли цитат и просмотров исходного исследования. На самом деле, именно это и произошло в случае двух статей:

  • Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications

  • Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv

История о двух рейтингах Altmetric
История о двух рейтингах Altmetric

Эта пара статей о функциях ферментов стала прекрасным примером для изучения границ применения ИИ в биологии и неправильно расставленных акцентов в современной публикации результатов. В этом посте я расскажу о некоторых подробностях, однако призываю вас изучить статьи самостоятельно. Этот контраст станет ярким напоминанием о том, как сложно бывает оценить правдивость результатов ИИ без глубокого знания предметной области.

Задача определения функции ферментов

Ферменты — это катализаторы реакций, поэтому они очень важны для всех процессов, происходящих в живых организмах. Шифры классификации ферментов (КФ) — это иерархическая система классификации тысяч различных функций. Если знать последовательность аминокислот (строительных блоков всех белков, в том числе и ферментов), то можно ли спрогнозировать, каким будет шифр КФ (а значит, и функция фермента)? Похоже, эта задача как будто предназначена для машинного обучения, ведь у неё есть чётко заданные входные и выходные данные. Более того, существует обширный датасет — в онлайн-базе данных UniProt хранится список из более 22 миллионов ферментов и их шифров КФ.

Решение задачи при помощи транформеров (ИИ-модели)

В исследовательской статье модель трансформера глубокого обучения использовалась для прогнозирования функций ферментов с ранее неизвестными функциями. Похоже, это качественное исследование! Авторы использовали разумно подобранную и хорошо показавшую себя архитектуру нейронной сети (два энкодера трансформера, два свёрточных слоя и линейный слой), заимствованную у BERT. Они изучили области с высоким вниманием, чтобы убедиться, что они биологически значимы; это означает, что модель обучилась их внутреннему значению и обеспечила интерпретируемость. Они использовали стандартный датасет из миллионов элементов, разделённый на множества для обучения, валидации и тестирования. Затем исследователи применили модель к датасету без «эталонных данных», чтобы получить приблизительно 450 новых прогнозов. Из этих новых прогнозов они случайно выбрали три для тестирования in vitro («в пробирке») и подтвердили, что прогнозы оказались точными.

Показанная слева модель трансформера использовалась для прогнозирования шифров КФ для неспециализированных ферментов E. coli. Три из них были протестированы in vitro (рис. 1a и рис. 4 из статьи Kim, et al.)
Показанная слева модель трансформера использовалась для прогнозирования шифров КФ для неспециализированных ферментов E. coli. Три из них были протестированы in vitro (рис. 1a и рис. 4 из статьи Kim, et al.)

Погрешности

Созданные моделью трансформера из статьи в Nature Communications «новые» прогнозы почти наверняка ошибочны. В статье использовалась стандартная методология оценки производительности на тестовом датасете, который не видел трансформер, и реализовала её достаточно хорошо (хотя при последующем исследовании возникли подозрения об утечке данных). Выяснилось, что заявленные результаты для ферментов без эталонных данных полны ошибок.

Например, по прогнозу ген YjhQ E. coli должен быть микотиолсинтазой, но в E. coli вообще не синтезируется микотиол! Уже десяток лет назад было доказано in vivo, что ген yciO, эволюционно возникший из гена TsaC, не имеет ту же функцию, что у TsaC, однако в публикации Nature Communications сделан вывод, что он обладает такой же функцией.

Из 450 «новых» результатов, представленных в статье, 135 оказались совсем не новыми; они уже есть в онлайн-базе данных UniProt. Ещё 148 показали нелогично высокие уровни повторяемости: для генов E. coli одни и те же специфичные функции ферментов повторно встречались до двенадцати раз, что биологически маловероятно.

Большинство «новых» результатов из статьи о трансформере было или не новыми, или необычно повторяющимся, или ошибочными паралогами (рис. 5 из статьи de Crecy, et al.)
Большинство «новых» результатов из статьи о трансформере было или не новыми, или необычно повторяющимся, или ошибочными паралогами (рис. 5 из статьи de Crecy, et al.)

Микробиологический детектив

Как обнаружились эти ошибки? После обучения, валидации и проверки модели на датасете из миллионов элементов её использовали для создания приблизительно 450 новых прогнозов, и три из них были проверены in vitro. Так получилось, что один из ферментов, выбранных для тестирования in vitro (yciO), уже подробно исследовался за десяток лет до этого доктором де Креси-Лагаром. Когда она прочитала, что глубокое обучение спрогнозировало для yciO ту же функцию, что и гена TsaC, то по своему долгому опыту работы в лаборатории поняла, что это неправда. Её предыдущие исследования показали. что ген TsaC обязателен для E. coli , даже если в том же геноме присутствует yciO и даже если ген yciO сверхэкспрессирован. Более того, активность yciO, заявленная в статье Kim et al., на более чем четыре порядка величин (то есть больше, чем в 10000 раз) слабее, чем активность TsaC. Из всего этого следует, что yciO НЕ выполняет ту же ключевую функцию, что и TsaC.

Два фермента с общим эволюционным предком, но с разными функциями (рис. 7 из статьи de Crecy, et al.)
Два фермента с общим эволюционным предком, но с разными функциями (рис. 7 из статьи de Crecy, et al.)

YciO и TsaC имеют структурную схожесть, к тому же YciO эволюционировал из предка TsaC. Десятки лет исследований эволюции белков и ферментов показали, что новые функции часто эволюционируют дублированием существующего гена с последующей диверсификацией его функции. Это становится основной проблемой при определении функции фермента, потому что их гены могут иметь множество общих признаков с теми генами, из которых они дублировались и диверсифицировались.

Таким образом, изучение структурного подобия — лишь один тип доказательств при анализе функции фермента. Крайне важно учитывать и другие типы доказательств, например, контекст соседства генов, докинга субстратов, совместного присутствия генов на метаболических путях и другие признаки ферментов.

При классификации функции фермента важно учитывать различные типы доказательств (рис. 2 из статьи de Crecy, et al.)
При классификации функции фермента важно учитывать различные типы доказательств (рис. 2 из статьи de Crecy, et al.)

Сотни ошибочных с большой долей вероятности результатов

Обнаружив это ошибку, де Креси-Лагар и её соавторы внимательнее присмотрелись к другим ферментам, для которых в статье Kim, et al были найдены новые результаты. Они выяснили, что 135 из этих результатов уже есть в списке онлайн-базы данных, использованной для создания датасета обучения, а поэтому на самом деле не новы. Ещё 148 результатов содержали высокую степень повторяемости: одни и те же высокоспецифичные функции встречались в них до двенадцати раз. Перекосы, дисбаланс данных, отсутствие релевантных признаков, архитектурные ограничения или плохая калибровка неопределённости могут заставлять модели применять самую часто встречающуюся в обучающих данных разметку.

Ошибочность других результатов была доказана благодаря биологическому контексту или поиску по литературе. Например, по прогнозу ген YjhQ должен иметь функцию микотиолсинтазы (катализатора синтеза микотиола), но в E. coli микотиол не синтезируется. Исследование прогнозировало, что YrhB синтезирует определённое соединение, синтезировать которое по другому прогнозу должен фермент QueD. Разновидность E. coli с мутировавшим QueD была неспособна синтезировать соединение, и это доказало, что на самом деле функция YrhB иная.

Переосмысление классификации ферментов и «истинных неизвестных»

На самом деле, процесс определения функции фермеров состоит из двух достаточно сильно различающихся задач, которые обычно объединяют:

  • проецирование разметки известных функций на ферменты из того же функционального семейства

  • выявление действительно неизвестных функций

Авторы второй статьи подметили, что «модели машинного обучения с учителем по природе своей не могут использоваться для прогнозирования функции истинных неизвестных». Машинное обучение может быть полезно при проецировании известных функций на дополнительные ферменты, но при этом может возникать множество ошибок, например, ошибочное отсутствие проецирования разметки и ошибочное проецирование, ошибки курирования и ошибки экспериментов. К сожалению, ошибочные функции добавляются в основные онлайн-базы данных наподобие UniProt, и эти некорректные данные могут в дальнейшем распространяться, если используются для обучения прогнозирующих моделей. Со временем эта проблема становится всё более серьёзной.

Необходимость знаний в предметной области

Нет ничего нового в том, что работа ИИ часто получает больше признания и поддержки, чем работа людей, внимательно изучающих данные и интегрирующие глубокие знания предметной области. В статье с метким названием Everyone Wants to do the Model Work, not the Data Work («Все хотят работать с моделями, но не с данными») приведены десятки случаев, когда специалисты по машинному обучению работали над важнейшими ИИ-проектами. Авторы статьи пришли к выводу, что одной из ключевых причин катастрофических провалов становилось неадекватное применение знания предметных областей.

Источники каскадных сбоев в системах машинного обучения (рис. 1 из статьи Sambasivan, et al.)
Источники каскадных сбоев в системах машинного обучения (рис. 1 из статьи Sambasivan, et al.)

Подобные статьи стали напоминанием о том, насколько сложно (а иногда и невозможно) бывает оценить утверждения ИИ в областях вне нашей собственной сферы опыта. Я не специалист в функциях ферментов E. coli. И в большинстве научных статей о глубоком обучении специалисты в предметной области не изучали под лупой качество результатов авторов. Какая доля кажущихся впечатляющими научных статей не выдержала бы тщательной проверки? Труд по проверке сотен прогнозов функции ферментов менее гламурна, чем работа по созданию генерирующих их ИИ-модели. Тем не менее, он важнее. Как нам мотивировать учёных проводить подобные исследования с целью проверки на ошибки?

Я считаю, что в условиях сокращающегося финансирования мы должны делать обратное и ещё сильнее вкладываться в широких спектр естественнонаучных и биомедицинских исследований под множеством разных углов. И нам нужно бороться с системой мотивации, непропорционально перекошенной в сторону громких ИИ-решений ценой качества результатов.

Источник: habr.com

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых