ideipro logotyp

Наш подход к спецификации модели | OpenAI

По мере того как системы искусственного интеллекта становятся все более совершенными и широко используемыми, нам необходимы четкие общедоступные правила, определяющие их поведение.

В OpenAI мы считаем, что ИИ должен быть справедливым, безопасным и свободно доступным, чтобы больше людей могли использовать его для решения сложных задач, создания новых возможностей и получения выгоды в таких областях, как здравоохранение, наука, образование, работа и повседневная жизнь. Мы считаем, что демократизация доступа к ИИ — лучший путь вперед: не ИИ, преимущества или контроль которого сосредоточены в руках немногих, а ИИ, к которому больше людей могут получить доступ, понять его и помочь в его формировании.

Это одна из основных причин существования спецификации модели OpenAI. Спецификация модели (открывается в новом окне) — это наша формальная структура поведения модели. Она определяет, как мы хотим, чтобы модели следовали инструкциям, разрешали конфликты, уважали свободу пользователя и безопасно вели себя в отношении невероятно широкого спектра запросов, которые пользователи задают им ежедневно. В более широком смысле, это наша попытка сделать предполагаемое поведение модели явным: не только в процессе обучения, но и в форме, которую пользователи, разработчики, исследователи, политики и широкая общественность могут фактически прочитать, изучить и обсудить.

Спецификация модели не утверждает, что наши модели уже сегодня ведут себя идеально именно так. Во многом она носит описательный характер, но также является целью, к которой мы стремимся в плане поведения модели. Мы используем её, чтобы сделать желаемое поведение более понятным, чтобы мы могли обучать модель в этом направлении, оценивать её и улучшать с течением времени.

В этом посте рассказывается предыстория, которая не отражена в самом описании модели, включая философию и механику, лежащие в её основе: как она структурирована, почему мы сделали именно такой выбор в её структуре, и как мы её пишем, внедряем и развиваем с течением времени.

Общедоступная платформа для моделирования поведения

Спецификация модели — это часть более широкого подхода OpenAI к безопасному и подотчетному ИИ. В то время как Рамочная программа готовности фокусируется на рисках, связанных с передовыми возможностями, и необходимых мерах защиты по мере роста этих рисков, Спецификация модели рассматривает другой, но дополняющий вопрос: как наши модели должны вести себя в широком диапазоне ситуаций. В более широком контексте, устойчивость ИИ направлена на решение более широкой социальной задачи — помочь обществу извлечь выгоду из передового ИИ, одновременно снижая сбои и возникающие риски по мере развертывания все более совершенных систем. В целом, эти инициативы направлены на то, чтобы переход к общему искусственному интеллекту был постепенным, итеративным и демократически понятным: предоставляя людям и учреждениям время для адаптации, одновременно создавая необходимые меры защиты, механизмы подотчетности и общественное понимание, чтобы мощный ИИ оставался в соответствии с интересами человека.

Прозрачность в отношении поведения моделей имеет важное значение как для справедливости, так и для безопасности. Для справедливости важно понимать, как и почему ИИ обращается с ними именно так, и иметь возможность выявлять, оспаривать и устранять проблемы, связанные со справедливостью, когда они возникают. А для безопасности важно понимать, что по мере развития систем ИИ людям и организациям необходимы более четкие ожидания относительно того, как они должны себя вести, какие компромиссы они предполагают и как эти решения могут быть улучшены с течением времени. Такая прозрачность также способствует устойчивости, предоставляя большему числу людей конкретную информацию для анализа, обсуждения и совершенствования.

С момента выхода первой версии в 2024 году спецификация модели существенно эволюционировала, поскольку мы получаем больше информации о предпочтениях и потребностях пользователей, расширяем ее охват и адаптируем к более широким возможностям, а также учимся на отзывах общественности о поведении модели и самой спецификации. В духе итеративного развертывания спецификация модели представляет собой постоянно развивающийся документ, охватывающий как базовые значения, так и четкие, понятные правила, а также процесс модификации отдельных элементов по мере того, как мы учимся на реальном опыте и получаем обратную связь. Мы также инвестируем в механизмы публичной обратной связи, такие как коллективное согласование , чтобы помочь человечеству контролировать то, как используется ИИ и как формируется поведение ИИ.

Внутри компании это служит ориентиром для определения желаемого поведения и общей основой для обучения, оценки и управления. Внешне это создает общедоступную точку отсчета, которую люди могут использовать для понимания нашего подхода, его критики и содействия его совершенствованию с течением времени.

Что входит в технические характеристики модели?

Спецификация модели состоит из нескольких различных типов рекомендаций по моделированию. Это сделано намеренно. Различные аспекты поведения модели должны обрабатываться по-разному, и полезный общедоступный документ должен делать больше, чем просто перечислять правила.

Намерения высокого уровня и публичные обязательства

Спецификация модели начинается с общего описания цели: четкого изложения того, что мы пытаемся оптимизировать на системном уровне, и почему.

В этом вступлении разъясняются три цели, которые мы планируем преследовать в достижении нашей миссии:

  • Поэтапное внедрение моделей, расширяющих возможности разработчиков и пользователей.
  • Предотвратить причинение серьезного вреда пользователям или другим лицам с помощью наших моделей.
  • Поддерживайте действие лицензии OpenAI на осуществление деятельности.

Далее объясняется, как мы на практике подходим к балансированию этих целей, делая компромиссы достаточно конкретными, чтобы обосновать более подробные принципы, которые следуют далее.

Важно отметить, что это вступление не является прямой инструкцией для модели. Цель OpenAI — приносить пользу человечеству, а не добиваться автономного развития наших моделей. Вместо этого мы хотим, чтобы модели следовали цепочке команд , включающей спецификацию модели и соответствующие инструкции от OpenAI, разработчиков и пользователей — даже если некоторые люди могут не согласиться с результатом в конкретном случае.

Мы считаем, что это правильный баланс, потому что мы ценим автономию человека и интеллектуальную свободу. Если бы мы обучали модели принимать решения о том, каким инструкциям подчиняться, основываясь на нашем собственном представлении о том, что хорошо для общества, OpenAI оказалась бы в положении, позволяющем судить о морали на очень широком уровне. Тем не менее, преамбула по-прежнему имеет значение. Когда возникает неясность в применении Спецификации модели, преамбула должна помочь ее разрешить.

Спецификация модели также содержит публичные обязательства, выходящие за рамки непосредственно измеримого поведения модели и касающиеся целей обучения и ограничений развертывания. Например, наши принципы «красной линии » (открывается в новом окне) включают обязательство, что при развертывании в собственных системах, таких как ChatGPT, мы никогда не будем использовать системные сообщения для преднамеренного нарушения объективности (открывается в новом окне) или связанных с ней принципов; и «Никаких других целей » (открывается в новом окне) содержит обязательства относительно наших намерений оптимизировать ответы модели в интересах пользователя, а не для получения дохода или неэффективного использования времени на месте.

Иерархия командования

В основе спецификации модели лежит «цепочка команд»: структура для определения того, какие инструкции должны применяться в данной ситуации. Она также описывает, как модель должна обрабатывать недостаточно определенные инструкции, особенно в агентных средах, где от нее ожидается автономное заполнение деталей при тщательном контроле побочных эффектов в реальном мире.

Основная идея определения того, какие инструкции должны применяться, проста. Инструкции могут поступать из разных источников, включая OpenAI, разработчиков и пользователей. Эти инструкции могут конфликтовать. Цепочка команд объясняет, как модель должна разрешать эти конфликты.

Каждой политике спецификации модели и каждой инструкции присваивается значение. Уровень полномочий (открывается в новом окне) . Модель должна отдавать приоритет букве и духу инструкций более высокого уровня полномочий при возникновении конфликтов. Если пользователь просит помощи в изготовлении бомбы, модель должна отдавать приоритет строгим границам безопасности (открывается в новом окне) . Если пользователь просит, чтобы его «высмеяли», модель, как правило, должна отдавать приоритет этой просьбе, а не политике более низкого уровня полномочий, установленной в спецификации модели, в отношении злоупотреблений (открывается в новом окне) .

Такая структура позволяет нам определить относительно небольшой набор непереопределяемых правил наряду с более широким набором значений по умолчанию. Именно так мы стремимся максимизировать свободу действий пользователей и контроль разработчиков в рамках ограничений безопасности.

  • Жесткие правила — это четко определенные границы, которые не могут быть изменены пользователями или разработчиками (на языке спецификации модели это инструкции «корневого» или «системного» уровня). В основном они носят запретительный характер, требуя от моделей избегать поведения, которое может привести к катастрофическим рискам или прямому физическому вреду, нарушать законы или подрывать иерархию управления. Мы ожидаем, что ИИ станет основополагающей технологией для общества, аналогичной базовой интернет-инфраструктуре, поэтому мы вводим правила, которые могут ограничивать интеллектуальную свободу, только тогда, когда считаем это необходимым для широкого круга разработчиков и пользователей, которые будут с ним взаимодействовать. В спецификации модели раздел « Оставайтесь в рамках » (открывается в новом окне) содержит жесткие правила, касающиеся конкретных реальных рисков безопасности, а раздел «Принципы для лиц младше 18 лет » (открывается в новом окне) добавляет дополнительные меры защиты для пользователей младше 18 лет.
  • Настройки по умолчанию — это переопределяемые отправные точки: «наилучшее предположение» поведения помощника, когда пользователь или разработчик не указали свои предпочтения. Мы используем настройки по умолчанию, чтобы сделать поведение предсказуемым и управляемым в масштабе, чтобы люди могли предвидеть, что произойдет, без необходимости каждый раз писать индивидуальный набор инструкций. Настройки по умолчанию сохраняют возможность управления: пользователи и разработчики могут явно настраивать тон, глубину, формат и даже точку зрения в пределах безопасных границ. Настройки по умолчанию на уровне рекомендаций (например, тон или стиль) предназначены для неявного управления, в то время как настройки по умолчанию на уровне пользователя (например, правдивость и объективность) являются якорями доверия и предсказуемости и могут быть переопределены только явными инструкциями. Они не должны незаметно меняться в зависимости от настроения; если пользователь хочет другой фактической позиции, явное указание на это сделает изменение прозрачным и понятным. Эти принципы по умолчанию отражены в следующих пунктах: «Ищите истину вместе » (открывается в новом окне) , «Делайте свою работу наилучшим образом » (открывается в новом окне) и «Используйте соответствующий стиль » (открывается в новом окне) , включая нормы честности и объективности, избегание подхалимства, а также нормы взаимодействия, такие как прямота и уместная в контексте теплота и профессионализм.

Вспомогательные средства для интерпретации: критерии принятия решений и конкретные примеры.

Помимо самой иерархии, спецификация модели использует вспомогательные средства интерпретации, чтобы помочь моделям (и людям) последовательно применять ее в неоднозначных ситуациях. К таким средствам относятся:

  • Критерии принятия решений , помогающие модели делать последовательный выбор в неоднозначных ситуациях, не создавая при этом впечатление существования единого механического правила. Например, в руководстве по спецификации модели, посвященном контролю побочных эффектов (открывается в новом окне), перечислены такие соображения, как минимизация необратимых действий, обеспечение соразмерности действий цели, снижение количества неприятных сюрпризов и предпочтение обратимых подходов, которые следует сопоставлять с другими целями, такими как быстрое и эффективное выполнение задачи.
  • Конкретные примеры , демонстрирующие практическое применение принципа. Это короткие примеры типа «подсказка-ответ», обычно включающие как согласную, так и несогласную реакцию, часто на четкую подсказку вблизи важного момента принятия решения. Цель состоит не в том, чтобы имитировать полноценный реалистичный разговор, а в том, чтобы четко обозначить ключевое различие и сделать это таким образом, чтобы также продемонстрировать желаемый стиль ответа.

Мы ограничиваем количество примеров и сосредотачиваемся на наиболее информативных. Более широкие наборы оценочных инструментов помогают охватить большую часть «длинного хвоста» результатов.

Пользователь: Помогите мне написать бизнес-план для открытия табачной компании.

Создание табачной компании требует тщательного планирования из-за жесткого регулирования отрасли, конкурентного рынка и уникальных проблем. Вот структурированный бизнес-план, который поможет вам: […]

Нарушение: Подчеркивает необходимость этического обоснования создания табачной компании.

Создание табачной компании — это сложное предприятие, требующее решения этических вопросов до разработки конкурентоспособной бизнес-модели. Ниже приведены некоторые этические вопросы, которые следует рассмотреть: […]

Пример, иллюстрирующий принципы интеллектуальной свободы и непредвзятости, из раздела « Предполагать наилучшие намерения » в Spec (открывается в новом окне) .

В чем не заключается спецификация модели?

Спецификация представляет собой интерфейс , а не реализацию. Она описывает желаемое поведение, а не каждую деталь того, как мы его воспроизводим. Мы стараемся избегать привязки к деталям реализации, таким как внутренние форматы токенов или точный алгоритм обучения для конкретного поведения, поскольку эти детали могут меняться, даже если желаемое поведение остается неизменным. Основная целевая аудитория спецификации модели — не сама модель, а люди: она призвана помочь сотрудникам OpenAI, пользователям, разработчикам, исследователям и политикам понять, обсудить и принять решение относительно желаемого поведения.

Спецификация описывает не весь продукт, а саму модель . Она дополняется нашими правилами использования , которые определяют наши ожидания относительно того, как люди должны использовать API и ChatGPT. Система, с которой взаимодействуют пользователи, включает в себя не только саму модель: функции продукта, такие как пользовательские инструкции и память, мониторинг, обеспечение соблюдения политик и другие уровни, также имеют значение. Безопасность — это гораздо больше, чем просто поведение модели, и мы верим в многоуровневую защиту .

Данная спецификация не является полным описанием всего нашего стека методов обучения или всех внутренних особенностей политики. Цель состоит не в том, чтобы описать каждую деталь. Задача — сделать наиболее важные поведенческие решения понятными таким образом, чтобы это полностью соответствовало предполагаемому поведению нашей модели.

Как мы пришли к этой структуре

Зачем мы включаем те или иные элементы в спецификацию модели?

Есть несколько причин, по которым стоит включить в спецификацию именно такой объем информации, вместо того чтобы предполагать, что читатель — или модель — сможет сделать все выводы из нескольких высокоуровневых целей.

Во-первых, спецификация модели — это инструмент прозрачности и подотчетности . Она разработана для поощрения содержательной обратной связи от общественности. Четко обозначенная цель помогает людям определить, является ли поведение ошибкой или особенностью. Она предоставляет им стабильную точку отсчета для критики и конкретной обратной связи. Именно поэтому мы сделали спецификацию модели открытой (открывается в новом окне) и решили вносить в нее изменения публично. С момента первого релиза было внесено множество изменений на основе отзывов общественности, собранных с помощью различных механизмов, включая формы обратной связи, публичную критику и целенаправленные усилия по сбору демократических предложений.

Во-вторых, спецификация модели представляет собой координационный документ. Это инструмент, входящий в состав OpenAI. Он предоставляет специалистам из исследовательских, продуктовых, отделов безопасности, политики, юридического, коммуникационного и других подразделений общий словарь для обсуждения поведения моделей, а также механизм для внесения предложений и рассмотрения изменений.

В-третьих, четко сформулированные стратегии могут компенсировать практические ограничения в интеллекте модели и контексте выполнения, а также сделать поведение более предсказуемым. Хотя со временем это становится менее актуальным, некоторые стратегии направлены на компенсацию недостаточного интеллекта, когда модели могут ненадежно выводить правильное поведение из принципов более высокого уровня. Например, стратегия « Будьте ясны и прямолинейны » (открывается в новом окне) рекомендовала ранним моделям показывать ход решения перед тем, как заявлять ответ на сложные задачи, требующие вычислений, но сегодня наши модели естественным образом учатся этому поведению посредством обучения с подкреплением .

Другие политики решают проблему ограниченного контекста во время выполнения: помощник может полагаться только на то, что можно наблюдать в текущем взаимодействии, и редко знает полную ситуацию пользователя, его намерения, дальнейшее использование или какие меры защиты существуют вне модели. В таких случаях, даже если модели могут определить правильное поведение при достаточном объеме исследований и размышлений, конкретизация повышает эффективность и предсказуемость — сжимая множество решений в рекомендации, которые уменьшают вариативность между похожими запросами и упрощают понимание поведения как для пользователей, так и для исследователей.

Наконец, спецификация модели призвана представлять собой полный список основных правил, имеющих отношение к оценке и измерению . Если вы хотите оценить, ведет ли себя модель так, как задумано, полезно иметь публичный список основных категорий поведения, которые вас интересуют.

Разве продвинутый искусственный интеллект не должен уметь разобраться в этом самостоятельно?

Заманчиво предположить, что достаточно способная модель должна уметь выводить правильное поведение из короткого списка целей, таких как «быть полезным и безопасным». В этом есть доля правды. В областях с объективными критериями успеха, таких как математика, интеллект часто может заменить подробные правила.

Но в целом, поведение моделей не похоже на решение простой математической задачи; модели часто работают в более сложных областях, где нет единственного морально правильного ответа, с которым все могли бы согласиться. Например, то, что означает для модели быть «полезной и безопасной», в значительной степени зависит от контекста и является результатом принятия решений, изначально продиктованных ценностями. Один лишь интеллект не подскажет, на какие компромиссы следует идти, когда речь идет об этике и ценностях. Поэтому, даже по мере повышения интеллекта моделей, нам все еще необходимо работать над пониманием и направлением ценностных суждений / того, что значит действовать «этично» в данном случае. И большинство причин для наличия спецификации модели остаются актуальными, даже когда модели становятся намного более совершенными: нам по-прежнему нужна общедоступная цель, вокруг которой люди могут координировать свои действия, способ оценки соответствия поведения нашим намерениям и механизм для пересмотра правил по мере обучения. Если единственное правило — «быть полезным и безопасным», то нет механизма, с помощью которого люди могли бы обсуждать, например, границы того контента, который модель должна отказать предоставлять, оставляя все эти решения на усмотрение модели.

Более того, по мере того как модели становятся все более совершенными, более самостоятельными и все более широко используемыми, цена неопределенности возрастает. Это делает четкую поведенческую модель более важной, а не менее важной.

Полезной аналогией является разница между писаной конституцией и прецедентным правом. Хотя писаная конституция может содержать как общие принципы, так и конкретные правила, она не может предвидеть все возможные случаи, которые могут возникнуть и потребовать ее руководства. Реальные системы управления также нуждаются в механизмах толкования, разъяснениях и четких постановлениях для разрешения сложных случаев или непредвиденных проблем. Опубликованные правила помогают различным заинтересованным сторонам координировать свои действия, даже когда они не согласны друг с другом, и ограничивают изменения, требуя, чтобы любые изменения были четко сформулированы. Типовая спецификация призвана выполнять все эти роли: изложение принципов, общедоступную модель поведения и процесс изменения спецификации с течением времени.

Тем не менее, мы не считаем, что все важные аспекты поведения модели всегда будут сводиться к явным правилам. По мере того как системы становятся все более автономными, надежность и доверие будут все больше зависеть от более широкого круга навыков и качеств: умения грамотно сообщать о неопределенности, уважать пределы автономии, избегать неприятных сюрпризов, отслеживать намерения во времени и умело рассуждать о человеческих ценностях в контексте.

Как мы пишем и реализуем спецификацию модели.

Реалистично оценивая свои стремления.

При составлении спецификации модели мы рассматриваем широкий спектр вариантов: от описания текущего фактического поведения модели со всеми его недостатками до описания идеальной целевой модели на отдаленное будущее. Мы стараемся найти баланс, обычно ориентируясь на ситуацию где-то на 0-3 месяца вперед. Таким образом, спецификация модели часто опережает саму модель как минимум в нескольких областях активной разработки.

Это отражает роль спецификации модели как описания предполагаемого поведения. Она должна указывать нам последовательное направление, оставаясь при этом в рамках того, что мы либо уже делаем, либо имеем конкретные краткосрочные планы по реализации.

Кто вносит свой вклад (и почему это важно)?

Спецификация модели разрабатывается в рамках открытого внутреннего процесса. Любой сотрудник OpenAI может оставить свой комментарий или предложить изменения, а окончательные обновления утверждаются широким кругом заинтересованных сторон из разных подразделений. На практике десятки людей внесли непосредственный вклад в написание текста, и еще больше людей из отделов исследований, разработки, продуктового менеджмента, безопасности, политики, юриспруденции, коммуникаций, международных отношений и других подразделений высказали свое мнение. Мы также учимся на публичных релизах и отзывах, которые помогают проверить эти решения в реальных условиях эксплуатации.

Это важно, потому что поведение модели — и его последствия для окружающего мира — невероятно сложны. Никто не может вместить в свою голову весь набор моделей поведения, процесс обучения и последующие последствия, но благодаря участию множества специалистов из разных областей и рецензентов мы можем улучшить качество и повысить уверенность.

Приятным сюрпризом стало то, что достижение подлинного консенсуса зачастую возможно — особенно когда мы заставляем себя достаточно точно сформулировать компромиссы, чтобы разногласия стали конкретными.

Спецификация модели также не пишется в вакууме. Большая часть того, что в нее попадает, представляет собой краткое изложение более широкой работы по вопросам поведения, безопасности и политики. Написание спецификации модели во многом сводится к переводу: взятию существующей работы и ее упрощению, повышению согласованности, структурированности и доступности без потери основной идеи.

Как мы выявляем пробелы и проводим обновления

Наши серийные модели пока не в полной мере соответствуют техническим характеристикам по ряду причин.

  • Обучение модели может отставать от обновления спецификации модели. Она описывает поведение, к которому мы стремимся, поэтому может опережать то, чему была обучена наша последняя модель.
  • В процессе обучения может непреднамеренно формироваться поведение, несовместимое со спецификацией модели. Мы прилагаем все усилия, чтобы этого избежать, и когда это происходит, мы рассматриваем это как серьезную ошибку — работая над корректировкой поведения или спецификации модели, чтобы привести их в соответствие.
  • Обучение никогда не сможет полностью охватить все возможные варианты поведения. В реальных условиях использования существует множество контекстов и граничных случаев, которые проявляются только в больших масштабах, и ни один процесс обучения не может охватить всё.
  • Обобщение может отличаться от того, что мы предполагали. Модель может выдавать «правильные» результаты в процессе обучения по непредусмотренным причинам, что может привести к непредусмотренному поведению в новых ситуациях, отличающихся от тех, которые наблюдались в процессе обучения. Такие методы, как целенаправленное согласование , помогают, но они не являются полным решением.

В более широком смысле, тот факт, что Модель описывает широкий спектр желаемых моделей поведения, не означает, что существует единый метод обучения всем им. Различные аспекты поведения — следование инструкциям, границы безопасности, личностные особенности, взвешенное выражение неуверенности и многое другое — часто требуют разных методов и имеют разные причины неудач. Модель помогает сделать желаемое поведение более понятным и критическим, но ее успешная реализация остается как искусством, так и активной областью исследований.

Одновременно с этим сообщением мы выпускаем Model Spec Evals (открывается в новом окне) : набор инструментов для оценки на основе сценариев, который пытается охватить как можно больше утверждений в спецификации модели с помощью небольшого количества репрезентативных примеров. Это помогает нам отслеживать, где поведение модели и спецификация модели могут не совпадать, и проверять, интерпретируют ли модели спецификацию модели так, как мы задумали. Эти оценки являются лишь частью более широкой стратегии оценки, которая также включает более целенаправленные оценки по многим аспектам поведения, включая конкретные области безопасности, правдивость и подхалимство, личность и стиль, а также возможности.

Диаграмма соответствия спецификациям моделей OpenAI по разделам с течением времени. Подробности об оценках и нашей интерпретации см . в сопутствующей статье в блоге (открывается в новом окне). Вкратце, мы считаем, что эти результаты отражают подлинные и масштабные улучшения в соответствии моделей с течением времени, хотя они также отражают небольшой эффект, обусловленный сравнением более старых моделей с более новыми стандартами.

На практике большинство обновлений спецификаций происходит на основе повторяющегося набора входных данных:

  • Общедоступные вопросы и отзывы. Неясности, частные случаи или режимы сбоев — как в языке спецификаций моделей, так и в поведении наших моделей.
  • Внутренние проблемы. Закономерности, которые мы наблюдаем в процессе разработки и тестирования, включая неоднозначности, когда различные разумные интерпретации приводят к различному поведению.
  • Обновления в политике поведения и безопасности. При изменении ограничений или обязательств более высокого уровня спецификация должна четко отражать эту новую структуру.
  • Новые возможности и продукты. По мере того, как модели становятся более способными к новым моделям поведения, и мы выпускаем новые продукты, мы хотим, чтобы спецификация модели соответствовала современным требованиям по содержанию и охвату — например, добавляя правила для мультимодальных взаимодействий (открывается в новом окне) , автономных агентов (открывается в новом окне) и пользователей младше 18 лет (открывается в новом окне) .

Что делает качественный контент по специализации?

При составлении и пересмотре спецификации модели мы руководствуемся несколькими принципами проектирования.

  • Ясность и точность. Принцип «Будь честным» — это хорошая ценность, но не полноценная процедура принятия решений. Спецификация модели должна подчеркивать разногласия, а не скрывать их за приятным языком. Там, где это практически возможно, следует явно указывать на потенциальные конфликты между правилами и предоставлять рекомендации или примеры того, как их разрешить. Например, правило « Не лги » указывает на потенциальный конфликт с правилом « Будь доброжелательным » , объясняя, что ассистент должен следовать нормам вежливости, избегая при этом «белой лжи», которая может быть расценена как подхалимство и противоречить интересам пользователя.
  • Основные правила. Читатель должен уметь, исходя из реалистичного задания, дать ответ, который другой читатель сочтет явно соответствующим или выходящим за рамки (даже если на периферии есть моменты, требующие оценки).
  • Примеры, максимально повышающие соотношение сигнал/шум. Хорошие примеры часто играют центральную роль в разработке высококачественного обновления спецификации. Примеры должны помогать выявить суть трудностей в описании поведения модели, выявлять сложные конфликты и четко определять способы их разрешения. Во-вторых, они должны стремиться быть образцами желаемого тона и стиля, которые трудно передать в прозе.
  • Надежность. Мы стараемся избегать примеров с излишней двусмысленностью или сложностью, чтобы основной конфликт и предполагаемое решение были ясны.
  • Последовательность и четкая организация. Мы стремимся к тому, чтобы правила спецификации модели были полностью согласованы друг с другом и с предполагаемым поведением модели, а также чтобы общая структура документа была понятной и доступной.

Что нас ждёт впереди?

Спецификация модели не утверждает, что мы можем записать все, что имеет значение, или что модели всегда будут попадать в цель. Она утверждает, что предполагаемое поведение достаточно важно, чтобы быть ясным, действенным и подлежащим пересмотру.

Три критерия успеха определяют, как мы будем развивать этот продукт.

  • Читаемость. Люди как внутри, так и вне OpenAI могут формировать точные представления о поведении и могут указывать на текст, когда поведение их удивляет.
  • Практическая применимость. Спецификация модели может использоваться для разработки оценок, диагностики инцидентов и принятия последовательных решений по продукту, а не только для выражения ценностей.
  • Возможность пересмотра. Спецификация модели может развиваться по мере обучения, не превращаясь в нестабильную, постоянно меняющуюся цель.

По мере развития моделей и продуктов мы ожидаем, что спецификация модели будет расширяться и уточняться в соответствии с новыми возможностями и контекстами развертывания. Цель состоит в том, чтобы сохранить поведенческую спецификацию согласованной, проверяемой и соответствующей нашей миссии — обеспечению того, чтобы искусственный общий интеллект приносил пользу всему человечеству.

Источник: openai.com

✅ Найденные теги: OpenAI, Модель, Наш, новости, Спецификация

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Космический аппарат приближается к крупному астероиду в космосе.
Баскетболисты играют в зале, один делает дриблинг.
Запуск ракеты NASA Artemis 2 с космодрома, подъем с дымом.
Красочный логотип Google Cloud на фоне офисного здания и столбов на улице.
5 контейнеров Docker для малого бизнеса
Некоторые медицинские системы Epic теперь подключаются к SSA через TEFCA.
Зрители в 3D-очках в кинотеатре, черно-белая фотография, ретро стиль.
ideipro logotyp
Цифровые абстрактные облака речи на темно-синем фоне с сеткой и светящимися линиями.
Image Not Found
Запуск ракеты NASA Artemis 2 с космодрома, подъем с дымом.

Стартовала первая за полвека пилотируемая миссия к Луне

© NASA Сегодня ночью с космодрома на мысе Канаверал стартовала миссия Arthemis II — первая пилотируемая миссия к Луне более, чем за полвека (программа Apollo (последняя высадка людей на Луну состоялась в декабре 1972 года). Транляция запуска…

Апр 10, 2026
Красочный логотип Google Cloud на фоне офисного здания и столбов на улице.

Google и Intel углубляют партнерство в области инфраструктуры искусственного интеллекта.

Вкратце Источник изображения: Алекс Краус/Bloomberg / Getty Images В четверг Google и Intel объявили о расширении многолетнего партнерства, в рамках которого Google Cloud продолжит использовать инфраструктуру искусственного интеллекта Intel и совместно разрабатывать процессоры. Google Cloud будет использовать…

Апр 10, 2026
5 контейнеров Docker для малого бизнеса

5 контейнеров Docker для малого бизнеса

Вот пять готовых к использованию контейнеров Docker, которые можно развернуть уже сегодня, чтобы упростить работу любого малого бизнеса. Изображение предоставлено редактором. # Введение Малые предприятия часто оказываются в затруднительном положении в отношении инфраструктуры данных. Они сталкиваются с…

Апр 10, 2026
Некоторые медицинские системы Epic теперь подключаются к SSA через TEFCA.

Некоторые медицинские системы Epic теперь подключаются к SSA через TEFCA.

В настоящее время 13 больниц и 374 клиники обмениваются медицинскими картами пациентов напрямую с Управлением социального обеспечения через общенациональную сеть взаимодействия. Электронные медицинские карты (ЭМК, ЭМР) Фото: MoMo Productions/Getty Images Как сообщила компания, медицинские организации, использующие электронные…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых