GPT-Rosalind — это программа магистратуры в области биологии, разработанная на основе биологических рабочих процессов и доступная в закрытом доступе.
Биологические системы обладают обширными сетями взаимодействий, которые человеческому мозгу бывает сложно обработать. ( Изображение : Андрей Онуфриенко )Текст рассказа Размер Маленький Стандартный Большой Ширина * Стандартный Широкий Ссылки Стандартный Оранжевый * Только для подписчиков
Узнать больше Свернуть в навигацию
В четверг компания OpenAI объявила о разработке крупной языковой модели, специально обученной на распространенных биологических алгоритмах. Модель, получившая название GPT-Rosalind в честь Розалинд Франклин, отличается от большинства научно-ориентированных моделей крупных технологических компаний, которые, как правило, используют более универсальный подход, подходящий для различных областей.
На пресс-конференции Юньюнь Ван, руководитель направления разработки продуктов для биологических наук в OpenAI, заявила, что система была разработана для решения двух основных проблем, с которыми сталкиваются современные исследователи в области биологии. Во-первых, это огромные массивы данных, созданные за десятилетия секвенирования генома и биохимии белков, которые могут оказаться слишком большими для одного исследователя. Во-вторых, в биологии существует множество узкоспециализированных подразделов, каждый со своими методами и терминологией. Так, например, генетик, работающий над геном, активным в клетках головного мозга, может испытывать трудности с пониманием огромного объема нейробиологической литературы.
Ван сказал, что компания взяла модель LLM и обучила ее 50 наиболее распространенным биологическим алгоритмам, а также тому, как получать доступ к основным общедоступным базам данных биологической информации. Дальнейшее обучение привело к созданию системы, которая может предлагать вероятные биологические пути и расставлять приоритеты для потенциальных мишеней для лекарственных препаратов. «Мы связываем генотип с фенотипом через известные пути и регуляторные механизмы, делаем выводы о вероятных структурных или функциональных свойствах белков и действительно используем это понимание механизмов», — сказал Ван.
Чтобы противостоять склонности моделей LLM к подхалимству и чрезмерному энтузиазму, OpenAI заявляет, что настроила модель на более скептический подход, благодаря чему она с большей вероятностью укажет на неподходящую мишень для лекарственных препаратов. Много говорилось о «рассуждениях» и «экспертном уровне» GPT-Rosalind. Нам сказали, что первое определяется как способность работать со сложными многоэтапными процессами, а второе — на основе производительности модели на нескольких тестовых наборах данных.
Неясно, удалось ли OpenAI решить проблему галлюцинаций, которая преследует многие магистерские программы и может возникать, когда системам предлагается объяснить шаги, предпринятые компанией для получения своих выводов. Учитывая прошлый опыт, вероятно, мы увидим как восторженные отзывы о неожиданных связях, которые обнаруживает ИИ, так и случаи, когда он выдает явно ошибочные предложения.
Однако на данный момент компания ограничивает доступ из-за опасений, что модель может выдавать вредоносные результаты, если ее попросят, например, оптимизировать заразность вируса. В настоящее время к структуре доверенного доступа OpenAI могут претендовать только организации, базирующиеся в США, и компания ограничит круг лиц, имеющих право ее использовать. Более ограниченная версия плагина для исследований в области наук о жизни будет предоставлена в общедоступный доступ.
Как отмечалось выше, ряд других компаний также предлагали агентные линейные модели обучения, ориентированные на науку, но они были гораздо менее сфокусированы, чем GPT-Rosalind, которая специализируется на биологии. Пока мы не получим отчеты об эффективности этой новой модели, трудно оценить, повышает ли такая направленность ее полезность.
Источник: arstechnica.com
























