ideipro logotyp

Картирование Вселенной, насчитывающей триллион генов: стартап, стремящийся научить искусственный интеллект языку жизни.

Автор: Эллисон Проффитт

30 марта 2026 г. | Компания Basecamp Research, лаборатория искусственного интеллекта и биологии, объявила о запуске проекта Trillion Gene Atlas: плана по сбору геномных данных более чем 100 миллионов видов из 31 страны, расширению известной генетической вселенной в 100 раз и сокращению объема обработки данных, который, по оценкам компании, занял бы 20 лет, до менее чем двух лет. В число партнеров входят Anthropic, производители оборудования для секвенирования Ultima Genomics и PacBio, а также NVIDIA, предоставляющая вычислительные ресурсы.

«Триллион» — это не гипотетически большое число, — сказал Глен Гоуэрс, соучредитель Basecamp Research. — Он считает. «Атлас триллиона генов» — это масштабирование и расширение существующей собственной базы данных компании, BaseData, представленной в июне 2025 года, которая уже содержит 10 миллиардов генов, полученных от миллиона вновь открытых видов — более чем в десять раз больше, чем все общедоступные геномные ресурсы вместе взятые. «Атлас триллиона генов» — это план по увеличению этого объема еще в 100 раз, в два этапа, примерно по 10 раз каждый. Каждый этап масштабирования займет около года, сказал Гоуэрс, включая этап сбора и генерации данных и этап оценки для учета полученных знаний перед следующим этапом масштабирования.

Партнерские отношения, о которых объявила компания Basecamp в рамках проекта по созданию атласа, станут ключом к его успеху. «Мы одновременно масштабируем три направления», — пояснил Гоуэрс: образцы, секвенирование и вычислительные ресурсы.

По его словам, сбор образцов — это одно из конкурентных преимуществ Basecamp. В Исландии компания построила автономные лаборатории по выделению ДНК, работающие на солнечной энергии от палатки. Сегодня местные ученые в 31 стране-партнере обрабатывают образцы на месте, выделяя ДНК в течение часа после сбора, чтобы сохранить ее естественное состояние, прежде чем отправить саму стабильную ДНК. Соглашения о доступе и распределении выгод с каждой страной-партнером — в соответствии с новыми правилами в области цифровой информации о последовательностях — регулируют, как экономическая ценность возвращается в страны-источники.

Партнерство Ultima Genomics и PacBio в области секвенирования решает конкретную техническую задачу: необходимо секвенирование как коротких, так и длинных фрагментов ДНК в промышленных масштабах. Короткие фрагменты обеспечивают высокую пропускную способность; длинные фрагменты ДНК HiFi от PacBio позволяют получить информацию о регуляторном контексте, эпигенетическую информацию и разрешение на уровне субвидов, чего полностью не хватает коротким фрагментам.

Исторически сложилось так, что «секвенирование коротких прочтений привлекало внимание из-за масштаба, а не обязательно потому, что это наиболее полный ответ», — сказал Кристиан Генри, генеральный директор PacBio. «Сейчас секвенирование длинных прочтений достигает масштаба, существенного для построения моделей».

Компания PacBio проводит секвенирование на своем предприятии в Менло-Парке, штат Калифорния, и Генри заявил, что PacBio увеличила мощности, чтобы быть готовой к началу работ. «У нас есть лаборатория прикладных исследований, которую мы масштабировали, и что замечательно, так это то, что мы можем использовать наши новейшие технологии еще до их выхода на рынок, чтобы обеспечить еще больший масштаб и снижение затрат», — сказал он.

Для вычислительных мощностей также необходимы значительные масштабы. Даже имея в наличии образцы и данные секвенирования, компания Basecamp подсчитала, что обработка триллиона генов с помощью существующего биоинформатического конвейера займет более 20 лет. Ускоренная вычислительная инфраструктура NVIDIA, включая Parabricks для сборки метагеномных последовательностей, позволяет сократить этот срок до менее чем двух лет.

Затем вступает в игру последний партнер, Anthropic. «Не раскрывая больше подробностей, чем мы можем сказать сейчас, — заинтриговал Гоуэрс, — есть очень интересный аспект, где мы объединяем рассуждения на естественном языке — в чем модели, подобные Claude и всем остальным, действительно преуспевают, используя рассуждения на естественном языке и языки, основанные на человеческих знаниях, — и мы объединяем это с биологическими моделями, которые могут говорить на языке биологии. Никто раньше не объединял эти две вещи», — сказал он. Успешное сочетание этих двух языков будет полезно для биологических наук, фармацевтики, диагностики, ветеринарии, сельского хозяйства, экологической биологии и многого другого, предсказал Гоуэрс.

Развитие EDEN

Генри описывает подход Basecamp к секвенированию как «беспрецедентный».

«Начнем с того, что сама идея изучения древа жизни для создания контекста — это, по сути, новая концепция в построении масштабных моделей», — сказал Генри. Исторически PacBio фокусировалась на секвенировании биоразнообразных геномов, а не только генома человека, и Генри видит большую ценность в том, что Basecamp отдает предпочтение широкому разнообразию геномной информации при разработке лекарств.

«Человек произошел от древа жизни, но мы сосредоточились на узком сегменте данных о человеке, чтобы понять геном и научиться строить модели», — заметил он. По его мнению, подход Basecamp будет лучше.

В январе компания Basecamp опубликовала EDEN, базовую модель с 28 миллиардами параметров, обученную на версии BaseData, содержащей 10 миллиардов генов, и результаты проекта Trillion Gene Atlas будут включены в новые версии EDEN.

EDEN был опубликован на bioRxiv и не прошел рецензирование, но, по данным Basecamp, EDEN использовался для разработки антимикробных пептидов против устойчивых к лекарствам патогенов путем простого ввода идентификатора патогена в модель. Компания сообщает, что 32 из 33 разработанных пептидов показали функциональную активность — 97% успеха — без какой-либо дополнительной оптимизации. В настоящее время эти пептиды тестируются на мышах.

EDEN также продемонстрировала то, что Basecamp называет программируемой вставкой генов с помощью ИИ (aiPGI): модель идентифицировала более 10 000 связанных с заболеванием геномных участков и разработала CAR T-клетки, которые показали более 90% уничтожения опухолевых клеток в лабораторных условиях — без использования каких-либо данных о людях или клинических данных в процессе обучения.

Конечно, результаты исследований на мышах in vivo еще далеки от клинических испытаний первой фазы, но автоматизированные лаборатории ускоряют проверку целевых показателей, отметил Гоуэрс. План коммерциализации Basecamp состоит в том, чтобы внедрить модели во все области науки, где геном может быть полезен: биологические науки, фармацевтика, диагностика, ветеринария, сельское хозяйство, экологическая биология и многое другое.

Гоуэрс ясно дал понять, что компания не намерена проводить клинические испытания самостоятельно. «Я считаю, что будущее разработки лекарств с помощью ИИ — за компаниями, которые смогут очень быстро создавать новые лекарственные препараты с высокой степенью предсказуемости их поведения и позволять другим, кто отлично справляется с проведением клинических испытаний, брать их на себя».

Таким образом, эти наборы данных являются собственностью компании и разработаны в тесном сотрудничестве с партнерами. «Мы хотим способствовать проведению как можно большего числа исследований. На самом деле, у нас есть партнерские отношения с множеством исследователей из разных учреждений… Но простое распространение данных в открытом доступе не решает многих проблем».

Ни одна из двух статей, опубликованных Basecamp на bioRxiv с июня 2025 года, еще не прошла рецензирование. «Мы по-прежнему сосредоточены на решении проблем здоровья человека и планеты», — сказал Гоуэрс. «Наша главная цель — не публикация».

На данный момент такой подход устраивает венчурных инвесторов. Компания получает венчурное финансирование. По данным Gowers, на сегодняшний день компания привлекла 110 миллионов долларов венчурных инвестиций. Публично сообщается, что в декабре 2022 года был проведен раунд финансирования серии А, в рамках которого было привлечено около 21,6 миллиона долларов, а в октябре 2024 года – раунд серии В, в результате которого было привлечено 60 миллионов долларов.

Хотя Гоуэрс сравнивает «Атлас триллионов геномов» с «Проектом генома человека» — проектом, который в 1990-х годах обошелся в 3 миллиарда долларов, — сегодня затраты значительно изменились.

«Я действительно думаю, что это проект такого типа и масштаба, который был бы невозможен даже два года назад. Это результат совпадения этих кривых масштабирования», — сказал он. Теперь секвенирование, вычисления и сбор образцов стали намного, намного дешевле. Самым дорогим компонентом сегодня, по словам Гоуэрса, является хранение данных — необычное узкое место, отражающее огромный масштаб генерируемых данных.

Возникающие свойства

Гоуэрс говорит, что возможности модели в масштабе триллиона генов — это «неизведанная территория», и это делает ее захватывающей. «Точно так же, как когда модели GPT начали масштабироваться, появились так называемые эмергентные свойства и ограничения возможностей». Эквивалент триллиона генов, по его мнению, может включать разработку комбинированной терапии с использованием нескольких препаратов, диагностические возможности, наложенные на терапевтическую разработку, или методы, которые еще никто не догадался протестировать.

Генри, посвятивший свою карьеру геномике, согласился: «Большинство из нас пришли в науку не просто для того, чтобы создавать бизнес, а чтобы изменить мир. Быть частью чего-то подобного всегда вдохновляет».

Источник: www.bio-itworld.com

✅ Найденные теги: Вселенная, Гены, искусственный интеллект, Картирование, новости, стартап

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Интерфейс управления командой агентов для исследования тем Reddit, веба и Twitter.
Карта Эквадора на фоне Земли, проигрывается Radio Complice FM.
Программное окно Dangerzone, выбор и сохранение безопасных PDF-документов.
ideipro logotyp
Интерфейс Sentry с описанием ошибок и деталями инцидента для macOS.
Карта Германии с маршрутом, указателями и видом на сельскую местность рядом с Штраленом.
Веб-дизайн с графиками и изображениями: апельсины, диаграммы, кот с бокалом.
ideipro logotyp
ideipro logotyp
Image Not Found
ideipro logotyp

В Южной Корее разработали лёгкую роборуку с человеческой ловкостью

Современные роботы обладают уже достаточно высоким уровнем интеллекта, засчёт ИИ или машинного обучения. Однако их руки по-прежнему ограничены в выполнении повседневных задач. Южнокорейская компания Tesollo стремится решить эту проблему как для дроидов так и для людей с…

Апр 2, 2026
Процессор AMD Ryzen 5 8400F, крупный план, марка, серийный номер, маркировка Made in Malaysia.

Покупатель подержанного стокового кулера AMD получил в подарок Ryzen 5 8400F

Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

Апр 1, 2026
Процессор AMD Ryzen 5 8400F в руке, видна маркировка и детали корпуса.

Подержанный стоковый кулер для платформы AMD AM4: удивительная подарковая история

Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

Апр 1, 2026
Печатная плата с сенсором, тепловизор, график люминесценции материалов.

Светящиеся наночастицы помогут определять температуру работающих микрочипов

Реализация метода люминесцентной термометрии в микроэлектронике © Ilya E. Kolesnikov et al / Applied Materials Today, 2026 Ученые разработали бесконтактный способ измерения температуры микроэлектронных устройств, основанный на способности «термометра» менять свое свечение при нагреве. Авторы использовали наночастицы,…

Апр 1, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых