Общий алгоритм для проведения надежных сторонних оценок | OpenAI

30.05.2026 ideipro.ru

Что важно для эффективной независимой оценки гарантий и возможностей для перспективных моделей.

Независимые, заслуживающие доверия оценки третьих сторон играют решающую роль в укреплении экосистемы безопасности. Эти оценки проводятся на перспективных моделях, чтобы предоставить дополнительные доказательства утверждений о критически важных возможностях и мерах по обеспечению безопасности. В этом посте мы делимся уроками, которые мы усвоили на данный момент, и рекомендуем подходы к разработке оценок, которые могут достоверно оценивать перспективные модели, что, как мы надеемся, поможет в формировании новых стандартов в этой области.

Ранее многие системы оценки рассматривали модели как чат-боты: оценка задавала модели вопрос, как если бы это был пользователь, модель отвечала, а оценщик оценивал результат. Сегодняшние передовые модели способны на гораздо большее: они могут использовать инструменты, отслеживать информацию на многих этапах и действовать в рамках более крупного рабочего процесса. Это означает, что производительность зависит не только от модели, но и от среды, в которой выполняется задача, и от настроек, которые облегчают ее действия. Эти окружающие настройки, которые мы называем «адаптацией», могут изменять ключевые аспекты производительности системы, включая то, как она использует инструменты, отслеживает информацию или восстанавливается после ошибок.

Диаграмма, сравнивающая рабочий процесс с оперативным реагированием и рабочий процесс с агентным выполнением задач, показывающая, как контуры управления, инструменты, контекст, бюджет и меры безопасности обеспечивают автономное выполнение задач.

Это меняет подход к проведению оценок и то, на что читателям следует обращать внимание в отчетах об оценке. На наш взгляд, наиболее полезные отчеты явно описывают две вещи, помимо самого результата: во-первых, они указывают, какое утверждение было призвано проверить используемое в оценке оборудование, и, во-вторых, они предоставляют имеющиеся доказательства того, что результат оценки является достоверным.

Утверждения, проверяемые в ходе оценок, обычно делятся на три категории : 1 :

Выявление возможностей : Может ли модель правдоподобно воспроизвести оцениваемую возможность?
Эффективность защиты : Насколько надежны протестированные средства защиты от оцениваемого поведения или атаки?
Сравнение : Как различные модели показывают себя в эквивалентных условиях?

В отчетах об оценке также необходимо объяснить, как оценщики проверяли факторы, которые могли повлиять на достоверность результата. К ним относятся:

Использование уловок в системе вознаграждения: эксплуатация обходных путей в задании или системе подсчета баллов, позволяющая системе получать зачет, не демонстрируя поведение, которое должна измерять оценка.
Отказы: Отказы, которые маскируют проверяемое поведение.
Загрязнение: Завышенные результаты из-за того, что оценочные задания, ответы или близкие варианты присутствовали в обучающих данных или были обнаружены в процессе оценки, например, при просмотре.
Проблемы, приводящие к сбоям: низкая производительность из-за некорректности заданий. Причины могут включать несправедливую оценку (например, для правильного ответа требуются неуказанные детали реализации) и неразрешимые условия (например, отсутствие важных файлов или ненадежные инструменты).
Занижение результатов : преднамеренное занижение показателей при осознании того, что вас оценивают.

Выбор подходящей страховочной системы для проведения оценки имеет решающее значение для достижения оптимальных результатов.

Мы заметили, что роль вспомогательного инструментария особенно важна для систем, работающих на протяжении длительных траекторий. Когда модели могут использовать инструменты, сохранять состояние и восстанавливаться после ошибок на многих этапах, вспомогательный инструментарий может изменить наблюдаемый уровень производительности и даже определить, появится ли вообще оцениваемая возможность в результатах оценки. Например, вспомогательный инструментарий, сохраняющий состояние и повторяющий неудачные действия, может позволить модели завершить многоэтапную задачу, которую та же модель никогда не сможет выполнить в более простом вспомогательном инструменте.

В таблице ниже мы разделили три типа утверждений, которые могут потребоваться экспертам-оценщикам, и указали, какие инструменты, по нашему мнению, необходимы для каждого типа утверждений.

Утверждается, что оценка призвана поддержать	Правильный выбор страховочного пояса	Доказательства для отчета
Способность к работе в условиях интенсивной стимуляции: Система А может выполнять задачи типа X, если конфигурация системы разработана таким образом, чтобы максимально эффективно и достоверно продемонстрировать свои возможности.	Используйте наиболее надежную и достоверную схему сбора информации для данной системы, включая оборудование, инструменты, вспомогательные средства и бюджет, которые разумно были бы использовать компетентные пользователи.	Описание конфигурации оборудования и инструментов, рекомендации по сбору информации, допустимый бюджет/трудозатраты, количество токенов/стоимость/время, а также обоснование того, что данная конфигурация является надежным аналогом заявленных возможностей. При сравнении систем в различных оптимизированных конфигурациях, укажите, является ли это сравнение «система к системе» или «сбор информации с высоким уровнем детализации».
Контролируемое сравнение: Система А превосходит Систему В при совместном проведении оценки.	Задайте фиксированные задачи, систему оценки и бюджет. Используйте либо общий набор инструментов/оборудования, либо фиксированный набор стандартизированных инструментов, выбранных заранее, чтобы обеспечить разумный максимальный уровень детализации сравниваемых систем.	Общий набор задач, инструменты, метод оценки, среда разработки, бюджет, эффективность/стоимость токенов и известные ограничения. Для оценки агентов кодирования открытая среда разработки, такая как Codex CLI, может обеспечить фиксированный цикл работы агента и интерфейс инструментов для разных систем. Идеальным подходом для максимального повышения эффективности было бы оптимизировать индивидуальную среду разработки для каждой задачи и системы, но в настоящее время это непрактично.
Защита от атак с целью получения скрытых данных: Защитные механизмы системы А достаточны для соответствующего поведения модели или атаки с целью получения скрытых данных.	Используйте систему тестирования средств защиты, разработанную для выявления наиболее вероятной атаки в рамках соответствующей модели противника.	Как эксперты охарактеризовали поведение соответствующей модели, проверенную конфигурацию средств защиты, стратегию сбора информации, используемые средства, а также выделенный бюджет или трудозатраты.

Заявления о возможностях системы сильны лишь настолько, насколько сильны лежащие в их основе аргументы: оценщикам необходимо выбрать инструментарий, который наилучшим образом соответствует задаче и тем возможностям, которые оцениваются. Стандартизированный инструментарий может быть подходящим для сравнения систем в идентичных условиях, но он может недооценивать возможности, если не учитывает конкретные функции инструментария, которые помогают модели выполнять задачу. Например, производительность GPT-5.5 на киберполигонах OpenAI показывает, как выбор инструментария может существенно изменить измеренные возможности в задачах, требующих длительного многоэтапного использования инструментов: модель работает лучше, когда инструментарий использует компактизацию для сохранения контекста, релевантного задаче, по мере увеличения времени взаимодействия. Это демонстрирует, что для некоторых моделей инструментарий, который не учитывает компактизацию, будет недооценивать производительность.

Другие опубликованные оценки² также показывают, что выбор оборудования и бюджета влияет на результаты оценки. Увеличение вычислительных ресурсов во время тестирования может значительно изменить возможности, которые выявляет оценка, особенно в областях, где успех легко проверить, например, во многих киберзадачах. В оценке киберполигона, проведенной британским институтом AISI (открывается в новом окне) , увеличение бюджета с 10 млн до 100 млн токенов улучшило производительность до 59%, и производительность продолжала расти даже при самом высоком протестированном бюджете. Детализация этого делает оценку более понятной: она показывает читателям, как результат зависит от протестированной конфигурации системы выявления возможностей. Если производительность продолжает улучшаться с увеличением бюджета, оценку следует описывать как производительность при данном оборудовании и бюджете, а не как измеренный потолок возможностей. Возможности часто зависят от ресурсов, а не являются фиксированной величиной, которую можно четко измерить раз и навсегда. Там, где успех можно измерить в ходе многократных попыток, в отчетах следует также учитывать ожидаемую стоимость одного успешного решения, а не только процент успеха при фиксированном бюджете токенов. Это может упростить интерпретацию степени серьезности: низкий процент успеха все еще может иметь практическое значение, если стоимость повторных попыток находится в пределах соответствующей модели угроз. В отношении заявленных возможностей, недооценка, которую можно было бы избежать, является ошибкой измерения: если оборудование или бюджет не позволяют системе демонстрировать поведение, которое она могла бы иным образом воспроизвести, оценка не отражает заявленные возможности. В тех случаях, когда оценщики довели оценку до предела, насколько это было возможно, и производительность продолжает улучшаться, в отчетах следует четко указать на это и уточнить, что результат является лишь оценкой нижней границы.

Тестирование средств защиты может недооценивать вероятность успеха атаки и ее потенциальную серьезность, если не учитывать ресурсы, доступные злоумышленникам, включая специализированные средства защиты. В ходе кибер-оценки GPT-5.5, проведенной британским институтом AISI (открывается в новом окне) , эксперты, работающие в режиме «красной команды», обнаружили универсальный взлом, который выявлял вредоносный контент в запросах, предоставляемых OpenAI, в том числе в многоходовых агентных сценариях. Они использовали Codex для создания специализированного средства защиты, чтобы усилить эффективность атаки модели: оно внедряло многократно используемый шаблон обхода средств защиты во взаимодействие, сохраняло этот шаблон на протяжении ходов и блоков и применяло его ко всем вредоносным запросам, предоставляемым OpenAI. Тестирование средств защиты должно соответствовать противнику. Если речь идет о устойчивости к злоупотреблениям со стороны экспертов, тест должен оценивать наиболее надежную сквозную стратегию атаки в рамках определенного бюджета, включая любые средства защиты, необходимые для сохранения и повторного использования этой стратегии. В противном случае результаты могут быть искажены: они могут подтвердить лишь более узкое утверждение о сопротивлении более простым подсказкам, могут не учитывать как серьезность атаки, так и вероятность ее успеха после внедрения метода выявления, а также могут завышать вероятность или серьезность проблемы, если им будет выделено слишком много средств.

Для стандартизированных сравнительных тестов есть свое время и место, но оценщики должны четко объяснять, почему использование согласованного набора тестов уместно и какие утверждения оно может подтвердить. Оценка с временным горизонтом, проводимая METR (открывается в новом окне), является примером более широкой, надлежащим образом фиксированной схемы оценки: она разработана для получения сопоставимых результатов во всех оцениваемых системах. METR определяет общий результат — типичную продолжительность выполнения задачи человеком, в течение которой, согласно прогнозам, агент ИИ добьется успеха при заданном уровне надежности. В каждой группе оценок, представленных вместе, применяется общий набор задач, метод оценки, метод подгонки и небольшой набор многократно используемых шаблонов, таких как Triframe и ReAct (открывается в новом окне). Когда METR расширила набор задач и перевела инфраструктуру оценки с платформы Vivaria на платформу Inspect, она сообщила об этом изменении ( обновление Time Horizon 1.1 (открывается в новом окне) ) и провела повторную оценку моделей в рамках новой схемы оценки. В этом и заключается ценность стандартизированной системы оценки, включая единый набор измерительных приборов: она позволяет читателям быть уверенными в том, что разница в результатах действительно отражает разницу между сравниваемыми системами, а не изменение в методах измерения.

Мы рекомендуем, чтобы в отчетах о независимой оценке указывалось, какое утверждение призвана подтвердить используемая методика оценки; насколько точно результаты тестирования соответствуют этому более широкому утверждению; описывались варианты оборудования, повлиявшие на результат; подробно описывались случаи изменения этих вариантов между оценками; и включались подтверждающие доказательства того, как был получен результат и насколько хорошо он соответствует заявленному утверждению.

Оцените достоверность, проверив наличие известных факторов, которые могут исказить результаты.

По мере того, как модели становятся более совершенными, оценки легче неправильно интерпретировать. По сравнению с реальными возможностями, оценки могут быть искусственно занижены, если модель понимает, что её оценивают, и стратегически показывает результаты ниже ожидаемых. Они могут быть завышены, если модель использует обходные пути в задании, подсказке, оценщике или инструменте. Они также могут быть искажены из-за «загрязнения» (когда модель уже знает или может найти ответ, не решая задачу) или из-за «сломанных» задач, которые являются неоднозначными, неправильно оцененными, неразрешимыми или уязвимыми для непреднамеренных обходных путей. Поэтому в отчётах об оценке следует приводить основные оценки вместе с обсуждением этих опасностей, чтобы читатели могли оценить, отражают ли оценки предполагаемое поведение.

Оборудование, бюджеты, инструменты, правила оценки, мониторинг и процедуры проверки — все это влияет на то, решает ли агент поставленную задачу, избегает ли ее, запоминает ли ее или находит обходной путь. Достоверный отчет делает эти проверки видимыми: оценщики должны проверять образцы на предмет такого поведения каждый раз, когда проводится оценка.

Взлом системы вознаграждений

Использование уязвимостей в системе вознаграждения означает достижение высоких оценок способами, которые не отражают предполагаемые возможности. В данном случае проблема заключается в том, что система получает баллы за использование уязвимостей в задании, оценщике, подсказке или инструменте, а не за выполнение работы, которую должна была измерить оценка. Оценка GPT 5.4, проведенная METR (открывается в новом окне), показывает, почему это важно: несмотря на то, что модель успешно выполняла задачи со скоростью, которая при первом проходе соответствовала бы примерно 13-часовому временному горизонту, проверка человеком показала, что некоторые из этих успехов были достигнуты за счет использования уязвимостей в системе вознаграждения, и пересмотр результатов с учетом только тех случаев, когда уязвимостей не было, снизил оценку примерно до 6 часов. Оценщики должны оценить необходимость таких корректировок и, если они необходимы, четко сообщить о них: оценка возможностей гораздо полезнее, когда читатели могут видеть, какие очевидные успехи были дисквалифицированы, почему они были дисквалифицированы и насколько результат зависит от этой оценки.

Отказы

Модели также могут демонстрировать худшие результаты при оценке своих возможностей из-за мер безопасности. Модель может показать более низкую эффективность оценки, чем она способна, из-за отказа от выполнения оценочных заданий вместо их завершения. Поэтому в отчетах следует указывать, были ли отказы частью результатов оценки, и если да, то сколько образцов было скомпрометировано из-за них.

Загрязнение

Загрязнение данных наиболее важно для общедоступных или повторно используемых эталонных наборов данных . Если задачи, ответы или близкие варианты встречаются в обучающих данных или могут быть найдены агентом с помощью поиска, производительность может отражать скорее запоминание или извлечение информации, чем производительность модели. Оценщикам следует по возможности отдавать предпочтение частным или вновь созданным задачам и проверять, воспроизводят ли модели специфические для задачи детали, прежде чем решать их.

Сломанные проблемы

Некорректные задачи включают ситуации, когда задачу случайно не удаётся решить. Некорректные задачи встречаются достаточно часто (открывается в новом окне), поэтому их следует рассматривать как стандартный риск проверки достоверности. К ним относятся неверные эталонные данные, неоднозначные подсказки, отсутствующие файлы, нестабильные сервисы, несправедливые критерии оценки и среды, которые раскрывают возможности обхода ограничений, такие как скрытые файлы ответов или история репозитория, содержащая патч с эталонными данными.

мешки с песком

Стратегическое занижение результатов со стороны модели или системы означает стратегическое снижение производительности в тех случаях, когда высокая производительность противоречит какой-либо цели. Оценка GPT-5.5 от Apollo (открывается в новом окне) проверила это, создав контекст, в котором модель понимала, что высокие оценки могут привести к разучиванию или блокировке развертывания. GPT-5.5 по-прежнему давала правильные ответы, что свидетельствует о незначительных поведенческих признаках стратегического снижения производительности³ . Но их анализ траекторий рассуждений добавил важный контекст: Apollo обнаружила умеренные или более высокие признаки осознания соответствия оценке в 52% случаев в условиях занижения результатов по сравнению с 0% в контрфактических сценариях. Эти данные усложняют интерпретацию результата, но в конечном итоге дают читателям больше информации: читатели могут увидеть как обнадеживающий поведенческий результат, так и причину для осторожности в отношении его чрезмерной интерпретации.

Как мы способствуем повышению качества оценок

Для убедительных утверждений необходимы как подходящие инструменты для выявления желаемого поведения, так и проверки достоверности, подтверждающие правильность результата. Наше мнение о том, что инструменты и проверки достоверности являются частью результатов оценки, определяет наш подход к поддержке независимых оценок на практике:

Мы предоставляем экспертам конкретные рекомендации по максимальному уровню детализации запросов.
Мы просим специалистов по оценке возможностей использовать Codex в качестве общего минимального уровня для моделей OpenAI: тесты должны, по крайней мере, проводить базовый тест с использованием того же интерфейса агента, на который, вероятно, будут полагаться пользователи, а не только с использованием упрощенного интерфейса модели.
Мы также предоставляем доступ к трассировкам рассуждений и другим промежуточным артефактам там, где они необходимы для оценки обмана, занижения результатов или осведомленности об оценке. METR и Apollo используют этот доступ в оценках OpenAI начиная с GPT-5.
Наконец, мы уделяем приоритетное внимание исследованиям, направленным на более глубокое понимание того, когда и как выбор инструментов существенно меняет результаты, начиная от управления контекстом и доступа к инструментам и заканчивая поведением при повторных попытках, оценкой и распределением ресурсов.

Что это означает для стандартов оценки и направлений будущих исследований?

Эти рекомендации призваны не только улучшить отдельные отчеты об оценке, но и послужить основой для разработки новых национальных (открывается в новом окне) и международных (открывается в новом окне) стандартов оценки и отчетности в области передового ИИ. В дальнейшем стандарты оценки, проводимой сторонними организациями, должны предусматривать достаточно подробную информацию, чтобы лица, принимающие решения, могли понимать, какие утверждения подтверждают конкретные оценки, какая система была протестирована, как был получен результат и как оценщики проверили его достоверность. Для передовых систем, тестируемых в задачах, где важны возможности агентов, подробная информация должна включать (с учетом любых соображений безопасности или конфиденциальности):

Суть утверждения: сравнивает ли оценка системы, определяет ли предельные возможности или проверяет ли меры безопасности.
Содержание оценки: достаточно подробное описание задач или распределения задач, чтобы читатели могли понять, какие навыки, модели поведения или возможные ошибки фактически проверяются в ходе оценки.
Протестированная система: модель, параметры рассуждений, доступ к инструментам, программное обеспечение и средства защиты.
Бюджет: ходы, жетоны, попытки/повторные попытки, время выполнения, стоимость вывода и, где это применимо, ожидаемая стоимость за успешное решение.
Методы получения результатов: выбор способов получения ответа и то, насколько точно тестируемые данные соответствуют более широкому утверждению.
Проверка достоверности: как эксперты выявляли случаи манипулирования результатами, осведомленность об оценке, искажение данных, отказы, занижение оценок и другие действия, которые могли подорвать результат, в том числе, как подтвержденные случаи влияли на выставление оценок или их интерпретацию.

Стандарты, которые не учитывают варианты ремней безопасности или проверки их надежности, могут недооценивать возможности системы или переоценивать уверенность в заявленных характеристиках безопасности. Разработка надежных ремней безопасности и методов оценки безопасности остается открытой областью исследований и должна стать предметом дальнейших изысканий и инвестиций.

Источник: openai.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Общий алгоритм для проведения надежных сторонних оценок | OpenAI

Выбор подходящей страховочной системы для проведения оценки имеет решающее значение для достижения оптимальных результатов.

Оцените достоверность, проверив наличие известных факторов, которые могут исказить результаты.

Как мы способствуем повышению качества оценок

Что это означает для стандартов оценки и направлений будущих исследований?

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Выбор подходящей страховочной системы для проведения оценки имеет решающее значение для достижения оптимальных результатов.

Оцените достоверность, проверив наличие известных факторов, которые могут исказить результаты.

Как мы способствуем повышению качества оценок

Что это означает для стандартов оценки и направлений будущих исследований?

Похожие записи

Похожие записи

Эпоха энтузиастов или Паровозик, который смог

Земля могла быть терраформирована внеземными цивилизациями, предположили ученые

Оптимизация роя с помощью агентного ИИ с использованием искусственной колонизации пчел (ABC)

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI