Представляем GeneBench-Pro | OpenAI

01.07.2026 ideipro.ru

Научный эталонный тест, измеряющий, как агенты искусственного интеллекта справляются с неопределенностью и принимают важные решения в вычислительной биологии.

Прочитайте статью (откроется в новом окне)

построение набора данных
Оценка и выставление оценок
Результаты

Оглавление

построение набора данных
Оценка и выставление оценок
Результаты

Научные данные редко поступают с инструкциями. Исследователям приходится решать, отражает ли закономерность биологические процессы или шум, могут ли данные подтвердить поставленный вопрос и как каждый результат должен повлиять на дальнейшие действия. Агенты искусственного интеллекта все чаще способны выполнять сложные анализы, но реальные научные исследования зависят не только от запоминания фактов или следования заранее определенному алгоритму, но и от принятия решений более высокого порядка.

Сегодня мы представляем GeneBench-Pro — сложный, исследовательский тест, проверяющий способность моделей справляться с анализом, требующим высокой точности и экспертной оценки, что характерно для вычислительной биологии в реальных условиях. Он расширяет возможности GeneBench (открывается в новом окне) и охватывает более сложные и реалистичные задачи в области геномики, количественной биологии и трансляционной медицины, отражая сложность, итеративный характер и неоднозначность научных исследований в вычислительной биологии.

До настоящего времени было проведено лишь несколько убедительных оценок решений на системном уровне, которые затрудняют проведение реальных вычислительных исследований. К ним относятся обработка неопределенности, пересмотр предположений, выбор правильного пути анализа и определение момента, когда результат готов к принятию решения. Поскольку эти навыки трудно формализовать, их также трудно строго оценить, даже несмотря на то, что их недостатки все больше ограничивают общую производительность ИИ.

Диаграмма под названием «Разрыв в эталонных показателях в биологии», сравнивающая традиционные эталонные рабочие процессы с комплексным научным анализом, показывает дополнительные этапы, такие как предварительная обработка, моделирование, диагностика и итеративное уточнение, прежде чем прийти к научному заключению.

GeneBench-Pro разработан для точного измерения этих возможностей более высокого уровня. В рамках GeneBench-Pro мы определяем «исследовательский вкус» как последовательность решений, формирующих анализ: какие вопросы могут быть подтверждены данными, как ранняя диагностика должна изменить модель или оцениваемую величину, и когда необходимо пересмотреть первоначальный план. Каждая задача GeneBench-Pro предоставляет модели реалистичный и неструктурированный набор данных, краткий экспериментальный контекст и целевую оцениваемую величину, связанную с последующим решением. Для правильного ответа модель должна изучить данные, выбрать подходящий аналитический подход, пройти итеративный процесс экспериментирования и предоставить окончательный ответ.

построение набора данных

В биологии стоимость генерации данных (например, секвенирования генома) резко снизилась, и некоторые исследователи теперь утверждают (открывается в новом окне), что ограничивающим фактором является уже не сбор образцов, а последующие вычисления и анализ. GeneBench-Pro создан для оценки прогресса в решении этой проблемы и содержит 129 вопросов, охватывающих широкий спектр задач и методов вычислительной биологии.

Атлас предметных областей: 129 задач в 10 предметных областях и 21 подобласти.

6. Ассоциация и коррекция 6. Причинно-следственное картирование 2. Наследственность и архитектура 3. Родословная, ИБД и фазирование 7. Отбор и мутация 6. Примесь и древняя ДНК 8. История и генеалогии 6. Архитектура признаков и дисперсия 6. Семейные, социальные и трансмиссионные эффекты 5. Полигенное прогнозирование и геномный отбор 8. Регуляторные QTL и ASE 5. Структура транскриптома 4. Пространственный и хроматиновый контекст 9. Функциональная геномика 7. Протеомика и биомаркеры 11. Интерпретация клинических вариантов и пенетрантность 8. Фармакогеномика и ответ на лечение 7. Пренатальная, репродуктивная и клиническая генетика риска 10. Соматическая геномика рака и жидкостная биопсия 3. Микробная и метагеномная геномика 2. Судебная генетика

Нажмите на точку выше, чтобы узнать о тестовой задаче.

GeneBench-Pro также разработан для предотвращения распространенных ошибок в тестах производительности. Многие долгосрочные биологические тесты строятся на основе многоэтапных задач с использованием сложных исторических наборов данных, где может не быть единственно правильного пути анализа. Агент может выбрать один обоснованный пороговый уровень, в то время как другой может выбрать другой, но столь же обоснованный вариант, что отражает скорее произвольный выбор, сделанный создателем теста, чем какие-либо фундаментальные различия в производительности модели. Может произойти и обратное: если задача слишком нечувствительна к численным параметрам, агент может допустить фундаментальные ошибки в анализе и все равно получить проходной результат.

Чтобы избежать подобных сбоев, каждая задача GeneBench-Pro строится синтетически: мы знаем полную причинно-следственную структуру и напрямую моделируем процесс генерации данных. Это позволяет нам настраивать сложность каждой задачи, гарантировать, что разумные различия в субъективных аналитических решениях по-прежнему приводят к приемлемым численным результатам, и проверять (с помощью абляционных исследований), что правдоподобные, но неверные анализы терпят неудачу. Затем мы проверяем черновики задач с помощью детального анализа трассировки, чтобы выявить утечку информации и непредусмотренные пути решения. Это дает нам уверенность в том, что получение правильного ответа зависит от выбора правильного аналитического пути, а не от использования обходного пути или соответствия произвольным предпочтениям автора.

Из 129 вопросов GeneBench-Pro мы отправили 82 внешним экспертам в данной области, включая аспирантов, постдокторантов, ученых из промышленности и профессоров. Рецензенты оценивали реалистичность каждой задачи, возможность определения целевого ответа, а также соответствие используемых методов и оценок. Обратная связь использовалась для улучшения задач.

« Проблемы, которые я рассматривал, были бы сложны для решения аспирантом без постоянной обратной связи от опытного научного руководителя. Данные содержали технические проблемы и проблемы контроля качества, которые требовали вдумчивого и рефлексивного анализа данных с учетом потенциальных трудностей для успешного завершения работы; это не было просто применением какого-то готового метода к очистке и тщательной обработке данных».

Александр Страдвик Янг, доцент кафедры генетики человека в Калифорнийском университете в Лос-Анджелесе.

« Даже если существующие модели не способны надежно проводить независимый анализ от начала до конца, модели, хорошо работающие с задачами GeneBench-Pro, безусловно, могли бы помочь исследователям в определении правильных рабочих процессов и изучении данных. Я вижу, что это значительно улучшит темп, тщательность и воспроизводимость исследований » .

Дженнифер Грундман, аспирантка в области генетики человека в Калифорнийском университете в Лос-Анджелесе.

1 из 2

Александр Страдвик Янг, доцент кафедры генетики человека в Калифорнийском университете в Лос-Анджелесе.
Дженнифер Грундман, аспирантка в области генетики человека в Калифорнийском университете в Лос-Анджелесе.

Оценка и выставление оценок

Каждая задача GeneBench-Pro представляет собой самостоятельный научный анализ. Участники получают доступ к изолированному рабочему пространству с короткой подсказкой, файлами данных и стандартным набором биоинформатических инструментов, включая Python, библиотеки для научных вычислений и базовые пакеты геномики, такие как PLINK 2.0 (хотя для решения задач не требуются специализированные инструменты).

Решение о соотношении пользы и риска терапии опухолей с учетом структурных вариантов

В реестре молекулярного онкологического консилиума содержатся данные о случаях распространенных солидных опухолей, соответствующих критериям для проведения клинических испытаний и рассматриваемых для применения ингибитора, направленного на TXR1. Оцените для опухолей с активацией TXR1, опосредованной SV-рецепторами, на нулевой момент времени предельный эффект ингибитора TXR1 по сравнению с системной терапией без TXR1 на клиническую пользу на 16-й неделе, как если бы у всех пациентов был доступный для оценки визит на 16-й неделе. Также оцените риск токсичности/прекращения лечения, ограничивающий лечение, на 8-й неделе при применении ингибитора TXR1 в той же целевой популяции. Укажите чистую клиническую пользу = разница между пользой и риском (процентные пункты) — 0,35 * риск токсичности (процентные пункты) и выберите therapy_class_code 1, если ингибитор TXR1 имеет положительную чистую пользу, и 0 в противном случае.

Для всех величин, не относящихся к коду, используйте процентные пункты. Положительный эффект означает, что ингибитор TXR1 улучшает клинический результат на 16-й неделе по сравнению с системной терапией, не связанной с TXR1.

Эти данные получены в результате реального эксперимента; ваша оценка будет зависеть не только от точности числовых показателей, но и от качества аналитического мышления; не пытайтесь идти на компромиссы.

Верните окончательный ответ в виде одного JSON-объекта.
Не заключайте JSON в разметку Markdown.
Не добавляйте текст до или после JSON-файла.
Не пропускайте ни одну из клавиш, показанных в примере.
В итоговом ответе верните JSON-объект:

JSON

1 { 2 «answer» : { 3 «therapy_class_code» : , 4 «benefit_rd_pp» : , 5 «toxicity_dropout_risk_pp» : , 6 «net_clinical_utility_pp» : 7 } , 8 «reasoning» : «« 9 }

Поскольку мы контролируем весь процесс генерации данных, мы можем оценивать правильность детерминированно по известным целевым показателям, избегая вариативности выбора модели и эффектов многословности, характерных для стандартной оценки на основе рубрик.

Каждая задача также сопровождается обширными метаданными, включая предполагаемую структуру анализа, прикрепленные файлы данных, подробное многостраничное исследование кейса и результаты экспертной оценки. Мы полностью открываем исходный код 10 репрезентативных задач GeneBench-Pro на платформе Hugging Face (открывается в новом окне) с интерактивным веб-интерфейсом для их просмотра. Наконец, в ближайшем будущем мы предоставим подмножество из 50 задач для Artificial Analysis (открывается в новом окне) для независимого стороннего тестирования.

Результаты

Наша самая сильная модель, GPT-5.6 Sol, достигает показателя успешного прохождения теста в 28,7% на самом высоком уровне логического мышления (31,5% при включенном режиме Pro). Это резкое увеличение по сравнению с началом разработки оригинального GeneBench; тогда наша лучшая перспективная модель, GPT-5, показала результат ниже 5%. Прогресс в этом тесте свидетельствует о быстром улучшении перспективных моделей, даже в менее осязаемых областях научного мышления на системном уровне. При нынешних темпах этот тест может быть перенасыщен к концу года.

Результаты также показывают влияние масштабирования вычислительных ресурсов во время тестирования. На самом низком уровне логического мышления GPT-5.6 Sol обеспечивает лишь однозначный процент правильных ответов. На самом высоком уровне логического мышления GPT-5.6 Sol решает почти в шесть раз больше задач, чем GPT-5.2, используя при этом примерно в две трети меньше токенов.

Сравнения между семействами моделей показывают, что модели GPT относятся к числу наиболее эффективных систем для высокоуровневого научного мышления в условиях количественной неопределенности. Разрыв в производительности между GPT-5.6, GPT-5.5 и ведущими моделями с открытым исходным кодом, такими как GLM 5.2, значительно больше, чем можно было бы ожидать, экстраполируя данные из тестов программирования (открывается в новом окне) , что указывает на то, что модели с открытым исходным кодом больше специализируются на программировании, чем на более широких возможностях рассуждения.

Мы использовали перспективные модели GPT для оценки и проверки работоспособности программ в процессе разработки. В связи с этим мы предположили, что GeneBench-Pro может быть предвзят по отношению к моделям GPT по сравнению с другими семействами моделей. Однако модели конкурентов в лучшем случае соответствовали производительности соответствующей модели GPT на момент выпуска, а в худшем случае значительно уступали ей.

Результаты оценки — до 31,5% на GPT‑5.6 Sol (Pro) — поразительны, учитывая сложность задач GeneBench-Pro. В ходе опроса наши эксперты подсчитали, что решение типичной задачи GeneBench-Pro займет у эксперта около 20–40 часов. При консервативной оценке в 200 долларов в час это означает, что стоимость рабочей силы для решения одной задачи исчисляется тысячами долларов. Современные агенты ИИ все еще слишком ненадежны, чтобы заменить экспертов-людей, но разница в стоимости велика: затраты на вывод составляют всего несколько долларов за задачу. Это означает, что даже частичная автоматизация на текущем уровне может создать значительную экономическую и научную ценность.

« Эти контрольные показатели мотивированы широким кругом биологических вопросов, но… настоящая сложность заключается в поисковом анализе данных и рассуждениях на основе этих открытий: выявлении закономерностей и артефактов, а также в принятии решения о том, следует ли исключить или скорректировать данные. Это напоминает хаотичную природу реальных биологических наборов данных. Анализ этих оценок подчеркивает, насколько важны четкие условия решения для решения научных задач на основе агентного подхода. Различная формулировка подсказок или спецификация задач могут существенно повлиять на то, какие анализы кажутся допустимыми».

Сириллус Тан, научный сотрудник-постдокторант в Нью-Йоркском геномном центре.

« В основном мне понравились [вопросы]. В них, как правило, сочетались следующие аспекты: (1) необходимые знания по предмету, например, смещение C>T в древней ДНК, (2) несоответствия в данных, такие как подмена происхождения, (3) знание подходящих аналитических инструментов для работы и способов их применения. Казалось, что большинство участников провалили (2). Они недостаточно внимательны к проблемам с данными. Возможно, это указывает на слабость существующих моделей. И многие биологические данные содержат неточности».

Лекс Флагель, директор по анализу данных в Gencove.

1 из 2

Сириллус Тан, научный сотрудник-постдокторант в Нью-Йоркском геномном центре.
Лекс Флагель, директор по анализу данных в Gencove.

Тем не менее, тот факт, что модели, находящиеся на стыке существующих подходов, по-прежнему решают менее трети этих проблем, показывает, что есть значительный потенциал для улучшения. Модели могут частично продвигаться в решении сложных задач, но им трудно замкнуть цикл вывода. Эта закономерность неудач отражает контраст между экспертами и новичками. Эксперты используют свой опыт для формулирования проблемы и адаптации своего подхода, в то время как новички делают наблюдения, но им трудно интегрировать их в более широкий контекст проблемы.

Проблема: Фармакогеномный анализ времени до наступления события при изменяющемся во времени лечении.

Начало лечения, генотип-специфический ответ, замедленная фармакодинамика, признаки активного применения препарата и продольные биомаркеры совместно определяют причинно-следственную оценку выживаемости.

Шаблон GPT-5.5

Модель учитывает сроки проведения лечения с помощью стандартной модели Кокса, но не рассматривает обратную связь по факторам, влияющим на результаты лечения.

Постройте модель Кокса для счетных процессов, где лечение рассматривается как изменяющийся во времени фактор воздействия, эффективный только после treat_start +90 дней… Модель включает G, treatment×G, исходную тяжесть заболевания, возраст и пол.

GPT-5.6 Sol pattern

Использует более подходящий метод причинно-следственного анализа для надлежащего учета обратной связи между лечением и факторами, влияющими на результат.

Использовалась структурная модель Кокса для новых пользователей: исключены 818 пользователей, уже принимавших препарат, начало лечения моделировалось с помощью стабилизированных весов обратной вероятности, основанных на исходных ковариатах и текущем биомаркере, а воздействие рассматривалось как изменяющееся во времени с 90-дневной задержкой эффективности.

Для достижения практически идеальной производительности потребуются оценки, которые надежно измеряют прогресс и выявляют области, где модели все еще дают сбои. Такие бенчмарки, как GeneBench-Pro, могут помочь превратить неявные недостатки в нечто, что можно диагностировать и улучшить.

Если агенты смогут надежно автоматизировать этот класс анализа, они смогут значительно ускорить научные открытия. Данные генетики человека уже сейчас играют центральную роль в определении приоритетных целей и последующем внедрении результатов исследований в клиническую практику, поскольку механизмы, подтвержденные генетическими данными, с гораздо большей вероятностью приведут к одобрению методов лечения.

Тем временем стоимость секвенирования резко снизилась, а массивы данных биобанков теперь связывают молекулярную, фенотипическую информацию и медицинские записи с беспрецедентной широтой. Ограничивающим фактором является переход от генерации данных к преобразованию информации в практические выводы. Модели, способные последовательно выполнять анализы, которые сейчас обрабатываются группами экспертов, могли бы преобразовать промышленные исследования, ускорив отбор гипотез, отслеживание целевых показателей и цикл итераций между генерацией данных и принятием решений.

GeneBench-Pro представляет собой первоначальную попытку оценить более абстрактные навыки, необходимые для принятия обоснованных научных решений опытными специалистами. Эти навыки позволяют им интуитивно определять наиболее перспективные первоначальные анализы, итеративно корректировать и пересматривать свои рассуждения, когда данные противоречат первоначальным предположениям, и приходить к выводам, от которых могут зависеть дальнейшие клинические, академические или коммерческие решения.

Мы предполагаем, что по мере развития возможностей моделей, бенчмарки, проверяющие способности моделей на этих более высоких уровнях абстракции, станут все более полезными, выходя за рамки тех, которые просто проверяют теоретические знания или умение выполнять рутинный анализ.

Источник: openai.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

построение набора данных

Атлас предметных областей: 129 задач в 10 предметных областях и 21 подобласти.

Оценка и выставление оценок

Решение о соотношении пользы и риска терапии опухолей с учетом структурных вариантов

JSON

Результаты

Проблема: Фармакогеномный анализ времени до наступления события при изменяющемся во времени лечении.

Шаблон GPT-5.5

GPT-5.6 Sol pattern

Похожие записи

Похожие записи

Как обновить Linux (через терминал и панель управления)

Дверные звонки Ring от Amazon получили функцию оповещения о пожаре, магазин приложений и новые датчики.

Почему на Руси боялись зеркал

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email