Автор: Эллисон Проффитт
30 марта 2026 г. | Компания Basecamp Research, лаборатория искусственного интеллекта и биологии, объявила о запуске проекта Trillion Gene Atlas: плана по сбору геномных данных более чем 100 миллионов видов из 31 страны, расширению известной генетической вселенной в 100 раз и сокращению объема обработки данных, который, по оценкам компании, занял бы 20 лет, до менее чем двух лет. В число партнеров входят Anthropic, производители оборудования для секвенирования Ultima Genomics и PacBio, а также NVIDIA, предоставляющая вычислительные ресурсы.
«Триллион» — это не гипотетически большое число, — сказал Глен Гоуэрс, соучредитель Basecamp Research. — Он считает. «Атлас триллиона генов» — это масштабирование и расширение существующей собственной базы данных компании, BaseData, представленной в июне 2025 года, которая уже содержит 10 миллиардов генов, полученных от миллиона вновь открытых видов — более чем в десять раз больше, чем все общедоступные геномные ресурсы вместе взятые. «Атлас триллиона генов» — это план по увеличению этого объема еще в 100 раз, в два этапа, примерно по 10 раз каждый. Каждый этап масштабирования займет около года, сказал Гоуэрс, включая этап сбора и генерации данных и этап оценки для учета полученных знаний перед следующим этапом масштабирования.
Партнерские отношения, о которых объявила компания Basecamp в рамках проекта по созданию атласа, станут ключом к его успеху. «Мы одновременно масштабируем три направления», — пояснил Гоуэрс: образцы, секвенирование и вычислительные ресурсы.
По его словам, сбор образцов — это одно из конкурентных преимуществ Basecamp. В Исландии компания построила автономные лаборатории по выделению ДНК, работающие на солнечной энергии от палатки. Сегодня местные ученые в 31 стране-партнере обрабатывают образцы на месте, выделяя ДНК в течение часа после сбора, чтобы сохранить ее естественное состояние, прежде чем отправить саму стабильную ДНК. Соглашения о доступе и распределении выгод с каждой страной-партнером — в соответствии с новыми правилами в области цифровой информации о последовательностях — регулируют, как экономическая ценность возвращается в страны-источники.
Партнерство Ultima Genomics и PacBio в области секвенирования решает конкретную техническую задачу: необходимо секвенирование как коротких, так и длинных фрагментов ДНК в промышленных масштабах. Короткие фрагменты обеспечивают высокую пропускную способность; длинные фрагменты ДНК HiFi от PacBio позволяют получить информацию о регуляторном контексте, эпигенетическую информацию и разрешение на уровне субвидов, чего полностью не хватает коротким фрагментам.
Исторически сложилось так, что «секвенирование коротких прочтений привлекало внимание из-за масштаба, а не обязательно потому, что это наиболее полный ответ», — сказал Кристиан Генри, генеральный директор PacBio. «Сейчас секвенирование длинных прочтений достигает масштаба, существенного для построения моделей».
Компания PacBio проводит секвенирование на своем предприятии в Менло-Парке, штат Калифорния, и Генри заявил, что PacBio увеличила мощности, чтобы быть готовой к началу работ. «У нас есть лаборатория прикладных исследований, которую мы масштабировали, и что замечательно, так это то, что мы можем использовать наши новейшие технологии еще до их выхода на рынок, чтобы обеспечить еще больший масштаб и снижение затрат», — сказал он.
Для вычислительных мощностей также необходимы значительные масштабы. Даже имея в наличии образцы и данные секвенирования, компания Basecamp подсчитала, что обработка триллиона генов с помощью существующего биоинформатического конвейера займет более 20 лет. Ускоренная вычислительная инфраструктура NVIDIA, включая Parabricks для сборки метагеномных последовательностей, позволяет сократить этот срок до менее чем двух лет.
Затем вступает в игру последний партнер, Anthropic. «Не раскрывая больше подробностей, чем мы можем сказать сейчас, — заинтриговал Гоуэрс, — есть очень интересный аспект, где мы объединяем рассуждения на естественном языке — в чем модели, подобные Claude и всем остальным, действительно преуспевают, используя рассуждения на естественном языке и языки, основанные на человеческих знаниях, — и мы объединяем это с биологическими моделями, которые могут говорить на языке биологии. Никто раньше не объединял эти две вещи», — сказал он. Успешное сочетание этих двух языков будет полезно для биологических наук, фармацевтики, диагностики, ветеринарии, сельского хозяйства, экологической биологии и многого другого, предсказал Гоуэрс.
Развитие EDEN
Генри описывает подход Basecamp к секвенированию как «беспрецедентный».
«Начнем с того, что сама идея изучения древа жизни для создания контекста — это, по сути, новая концепция в построении масштабных моделей», — сказал Генри. Исторически PacBio фокусировалась на секвенировании биоразнообразных геномов, а не только генома человека, и Генри видит большую ценность в том, что Basecamp отдает предпочтение широкому разнообразию геномной информации при разработке лекарств.
«Человек произошел от древа жизни, но мы сосредоточились на узком сегменте данных о человеке, чтобы понять геном и научиться строить модели», — заметил он. По его мнению, подход Basecamp будет лучше.
В январе компания Basecamp опубликовала EDEN, базовую модель с 28 миллиардами параметров, обученную на версии BaseData, содержащей 10 миллиардов генов, и результаты проекта Trillion Gene Atlas будут включены в новые версии EDEN.
EDEN был опубликован на bioRxiv и не прошел рецензирование, но, по данным Basecamp, EDEN использовался для разработки антимикробных пептидов против устойчивых к лекарствам патогенов путем простого ввода идентификатора патогена в модель. Компания сообщает, что 32 из 33 разработанных пептидов показали функциональную активность — 97% успеха — без какой-либо дополнительной оптимизации. В настоящее время эти пептиды тестируются на мышах.
EDEN также продемонстрировала то, что Basecamp называет программируемой вставкой генов с помощью ИИ (aiPGI): модель идентифицировала более 10 000 связанных с заболеванием геномных участков и разработала CAR T-клетки, которые показали более 90% уничтожения опухолевых клеток в лабораторных условиях — без использования каких-либо данных о людях или клинических данных в процессе обучения.
Конечно, результаты исследований на мышах in vivo еще далеки от клинических испытаний первой фазы, но автоматизированные лаборатории ускоряют проверку целевых показателей, отметил Гоуэрс. План коммерциализации Basecamp состоит в том, чтобы внедрить модели во все области науки, где геном может быть полезен: биологические науки, фармацевтика, диагностика, ветеринария, сельское хозяйство, экологическая биология и многое другое.
Гоуэрс ясно дал понять, что компания не намерена проводить клинические испытания самостоятельно. «Я считаю, что будущее разработки лекарств с помощью ИИ — за компаниями, которые смогут очень быстро создавать новые лекарственные препараты с высокой степенью предсказуемости их поведения и позволять другим, кто отлично справляется с проведением клинических испытаний, брать их на себя».
Таким образом, эти наборы данных являются собственностью компании и разработаны в тесном сотрудничестве с партнерами. «Мы хотим способствовать проведению как можно большего числа исследований. На самом деле, у нас есть партнерские отношения с множеством исследователей из разных учреждений… Но простое распространение данных в открытом доступе не решает многих проблем».
Ни одна из двух статей, опубликованных Basecamp на bioRxiv с июня 2025 года, еще не прошла рецензирование. «Мы по-прежнему сосредоточены на решении проблем здоровья человека и планеты», — сказал Гоуэрс. «Наша главная цель — не публикация».
На данный момент такой подход устраивает венчурных инвесторов. Компания получает венчурное финансирование. По данным Gowers, на сегодняшний день компания привлекла 110 миллионов долларов венчурных инвестиций. Публично сообщается, что в декабре 2022 года был проведен раунд финансирования серии А, в рамках которого было привлечено около 21,6 миллиона долларов, а в октябре 2024 года – раунд серии В, в результате которого было привлечено 60 миллионов долларов.
Хотя Гоуэрс сравнивает «Атлас триллионов геномов» с «Проектом генома человека» — проектом, который в 1990-х годах обошелся в 3 миллиарда долларов, — сегодня затраты значительно изменились.
«Я действительно думаю, что это проект такого типа и масштаба, который был бы невозможен даже два года назад. Это результат совпадения этих кривых масштабирования», — сказал он. Теперь секвенирование, вычисления и сбор образцов стали намного, намного дешевле. Самым дорогим компонентом сегодня, по словам Гоуэрса, является хранение данных — необычное узкое место, отражающее огромный масштаб генерируемых данных.
Возникающие свойства
Гоуэрс говорит, что возможности модели в масштабе триллиона генов — это «неизведанная территория», и это делает ее захватывающей. «Точно так же, как когда модели GPT начали масштабироваться, появились так называемые эмергентные свойства и ограничения возможностей». Эквивалент триллиона генов, по его мнению, может включать разработку комбинированной терапии с использованием нескольких препаратов, диагностические возможности, наложенные на терапевтическую разработку, или методы, которые еще никто не догадался протестировать.
Генри, посвятивший свою карьеру геномике, согласился: «Большинство из нас пришли в науку не просто для того, чтобы создавать бизнес, а чтобы изменить мир. Быть частью чего-то подобного всегда вдохновляет».
Источник: www.bio-itworld.com
























