Диаграмма преобразования политик безопасности для подростков в меры защиты.

Помогаем разработчикам создавать более безопасные приложения на основе ИИ для подростков | OpenAI

Представляем набор правил безопасности для подростков, оформленных в виде подсказок для gpt-oss-safeguard.

Сегодня мы выпускаем политики безопасности на основе подсказок (открывается в новом окне) , которые помогут разработчикам создавать средства защиты, соответствующие возрасту подростков. Эти политики, разработанные для работы с нашей открытой моделью безопасности gpt-oss-safeguard (открывается в новом окне) , упрощают процесс преобразования требований безопасности в пригодные для использования классификаторы для реальных систем.

Мы выпустили открытые модели весов, чтобы демократизировать доступ к мощному ИИ и поддержать широкие инновации. В то же время мы считаем, что безопасность и инновации идут рука об руку, и что разработчики должны иметь доступ к функциональным моделям, а также к инструментам и политикам для их безопасного и ответственного развертывания. Мы разработали эти политики, чтобы поддержать разработчиков в их усилиях по обеспечению безопасности юных пользователей, с учетом мнения авторитетных внешних организаций, включая Common Sense Media (открывается в новом окне) и everyone.ai (открывается в новом окне) .

Мы понимаем, что у подростков и взрослых разные потребности, и что подросткам необходима дополнительная защита. Эти правила призваны помочь разработчикам учитывать эти различия и создавать возможности, которые будут одновременно расширять возможности и соответствовать потребностям более молодых пользователей.

Развивая нашу более широкую работу по защите молодежи.

Мы давно стремимся создавать ИИ, который расширяет возможности для молодежи, обеспечивая при этом ее безопасность. В рамках этой работы мы обновили наши спецификации моделей (Model Spec) — руководящие принципы, определяющие предполагаемое поведение моделей OpenAI, — включив в них принципы для лиц младше 18 лет (U18) (Under-18) (Open-AI) , а также внедрили меры защиты на уровне продукта, такие как родительский контроль и прогнозирование возраста , чтобы лучше защитить молодых пользователей. Мы также призвали к внедрению общеотраслевых мер защиты в рамках нашего плана действий по обеспечению безопасности подростков (Teen Safety Blueprint ) .

Сегодняшний релиз развивает эту идею. Мы предоставляем разработчикам доступ к этим политикам безопасности, чтобы помочь им внедрять средства защиты для подростков и способствовать демократизации доступа к открытому сообществу пользователей силовых тренажеров.

Преобразование вопросов безопасности подростков в четкие и применимые на практике правила.

Хотя такие классификаторы безопасности, как gpt-oss-safeguard, могут обнаруживать вредоносный контент, их работа зависит от четкого определения того, что этот контент собой представляет. На практике одна из самых больших проблем, с которыми сталкиваются разработчики, — это определение политик, которые точно отражают риски, специфичные для подростков, и могут последовательно применяться в реальных системах.

Даже опытные команды часто испытывают трудности с преобразованием общих целей безопасности в точные, оперативные правила, особенно учитывая, что это требует как экспертных знаний в предметной области, так и глубоких знаний в области искусственного интеллекта. Это может привести к пробелам в защите, непоследовательному применению правил или слишком широкой фильтрации. Четкие, хорошо продуманные политики являются критически важной основой для эффективных систем безопасности.

Помощь разработчикам в обеспечении безопасности подростков на практике.

Для решения этой проблемы мы выпускаем набор правил безопасности (открывается в новом окне) , разработанных с учетом распространенных рисков, с которыми сталкиваются подростки, и основанных на тщательном анализе существующих исследований, посвященных уникальным особенностям развития подростков. Эти правила структурированы в виде подсказок, которые можно напрямую использовать с gpt-oss-safeguard (открывается в новом окне) и другими моделями рассуждений, что позволяет разработчикам проще применять согласованные стандарты безопасности во всех своих системах.

Первоначальная версия включает в себя политики, охватывающие следующие аспекты:

  • графическое насилие
  • Откровенные сцены сексуального характера
  • Вредные идеалы красоты и поведения, связанные с телом.
  • Опасные виды деятельности и испытания
  • Романтическая или жестокая ролевая игра
  • Товары и услуги с возрастными ограничениями

Эти правила могут использоваться для фильтрации контента в режиме реального времени, а также для анализа пользовательского контента в автономном режиме.

Благодаря структурированию политик в виде подсказок, разработчики могут легче интегрировать их в существующие рабочие процессы, адаптировать к своим задачам и совершенствовать с течением времени.

Диаграмма, отображающая категории политики безопасности подростков и контент, связанный с подростками, поступающий в систему защиты GPT-OSS, которая принимает решения, основанные на внутренних рассуждениях.

Разработано при участии внешних экспертов.

Мы сотрудничали с внешними организациями, включая Common Sense Media (открывается в новом окне) и everyone.ai (открывается в новом окне), чтобы получить информацию для разработки этих правил. Их экспертиза помогла определить объем охватываемого контента, укрепить структуру вопросов и уточнить особые случаи, которые следует учитывать при их оценке.

Данная работа отражает продолжающиеся усилия по сотрудничеству с экспертами и более широкой экосистемой с целью улучшения того, как системы искусственного интеллекта поддерживают молодежь.

«Одним из самых больших недостатков в обеспечении безопасности ИИ для подростков является отсутствие четких, оперативных правил, на основе которых разработчики могли бы создавать свои продукты. Зачастую разработчикам приходится начинать с нуля. Эти правила, основанные на подсказках, помогают установить значимый уровень безопасности во всей экосистеме, и, поскольку они выпускаются как открытый исходный код, их можно адаптировать и улучшать со временем. Нас воодушевляет то, что подобная инфраструктура становится широко доступной, и мы надеемся, что это послужит катализатором для создания большего числа общих отправных точек для обеспечения безопасности молодежи в отрасли».

Робби Торни, руководитель отдела оценки ИИ и цифровых технологий, Common Sense Media

«Подобные усилия, направленные на повышение эффективности политики безопасности молодежи, имеют большую ценность, поскольку помогают преобразовать экспертные знания в рекомендации, применимые в реальных системах. Политика в отношении контента является важным первым шагом, а также открывает двери для более широкой работы по изучению того, как образцовое поведение может формировать риски, актуальные для молодежи, с течением времени. Вдохновленные этой работой и нашими собственными исследованиями, everyone.ai (открывается в новом окне) также разработали первоначальную поведенческую политику, ориентированную на такие риски, как исключительность и чрезмерная зависимость».

Доктор Матильда Чериоли, главный научный сотрудник everyone.AI

Это отправная точка, а не полное решение.

Данные правила предназначены в качестве отправной точки, а не как всеобъемлющее или окончательное определение или гарантия безопасности подростков. Каждое приложение имеет уникальные риски, целевую аудиторию и контекст, и разработчики лучше всего понимают риски, которые могут представлять их продукты и интеграция с ИИ. Мы настоятельно рекомендуем разработчикам адаптировать и расширять эти правила в соответствии со своими конкретными потребностями и сочетать их с другими мерами защиты, такими как решения в области дизайна продукта, пользовательский контроль, прозрачность, ориентированная на подростков, системы мониторинга и продуманные, соответствующие возрасту меры реагирования.

Мы считаем, что многоуровневая защита имеет решающее значение для создания более безопасных систем искусственного интеллекта. Эти правила основаны на нашем внутреннем опыте, но они не отражают в полной мере внутренние правила и меры безопасности OpenAI.

Дальнейший путь

Мы публикуем эти правила в открытом доступе через сообщество модели ROOST (открывается в новом окне), чтобы поощрять сотрудничество и итерации. Чтобы внести свой вклад, оставить отзыв или поделиться дополнительными правилами безопасности для подростков, посетите репозиторий RMC на GitHub (открывается в новом окне).

Разработчики и организации могут адаптировать эти политики к своим конкретным приложениям, переводить их на разные языки и расширять их охват, чтобы они включали дополнительные области риска. Со временем мы надеемся, что это будет способствовать созданию более надежной и общепринятой основы для внедрения политик безопасности в системах искусственного интеллекта.

Чтобы начать работу с gpt-oss-safeguard, скачайте его с сайта Hugging Face (откроется в новом окне) .

Продолжайте читать

Просмотреть все Награда за обнаружение уязвимостей в системе безопасности > художественная открытка Представляем программу OpenAI Safety Bug Bounty по поиску уязвимостей.

Безопасность 25 марта 2026 г.

Выпуск ответственной художественной открытки Sora, размер 1 x 1 Безопасное создание контента с помощью Sora.

Безопасность 23 марта 2026 г.

Мониторинг внутренних развертываний OAI на предмет рисков потери контроля. Художественная карточка 1x1 Как мы отслеживаем несоответствия в работе внутренних агентов по кодированию

Безопасность 19 марта 2026 г.

Источник: openai.com

✅ Найденные теги: OpenAI, Безопасные Приложения, ИИ, новости, подростки, Помогаем, Разработчики

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Зелёная трава на фоне размытых деревьев, символ природы и экологичности.
ideipro logotyp
Мужчина в костюме на фоне современного стеклянного интерьера.
Схема компонентов Coral NPU: Scalar Core, Vector и Matrix Exec Units.
Прощай, Лама? Компания Meta запускает новую собственную модель искусственного интеллекта Muse Spark — первую с момента основания Superintelligence Labs.
Средневековый арбалет и разрушенная каменная стена в солнечный день.
Человек в тёплой одежде на фоне зимнего горного пейзажа и смотровой площадки.
Человек с лицом заблюрен, орёл и шприц на фоне красно-синего градиента.
Image Not Found
ideipro logotyp

Промокоды и скидки Vivid Seats: сэкономьте 10% в апреле!

Собираетесь ли вы на аншлаговый концерт или на чемпионат, воспользуйтесь промокодом Vivid Seats, чтобы забронировать места по более низкой цене в этом месяце. Источник: www.wired.com ✅ Найденные теги: Vivid Seats, Апрель, новости, Промокоды, Скидки, ЭкономияПохожие записиПлохая ли…

Апр 10, 2026
Зелёная трава на фоне размытых деревьев, символ природы и экологичности.

Плохая ли это идея — использовать искусственную траву? Войны вокруг искусственного газона еще далеки от завершения.

Adobe Stock Редкая для января теплая погода растопила достаточно снега, чтобы обнажить новейшее спортивное поле Корнельского университета, построенное для хоккея на траве. Несколько месяцев назад это был луг, кишащий птицами и насекомыми; теперь это более акра искусственного…

Апр 10, 2026
ideipro logotyp

Действие без взаимодействия: исследование физических основ видеосистем LMM с помощью обнаружения контакта и отпускания

arXiv:2511.20162v2 Тип объявления: replace-cross Аннотация: Крупные мультимодальные модели (LMM) демонстрируют растущую производительность в реалистичных визуальных задачах для изображений и, в последнее время, для видео. Например, имея видеопоследовательность, такие модели способны детально описывать объекты, окружение и динамические действия.…

Апр 10, 2026
Мужчина в костюме на фоне современного стеклянного интерьера.

Развитие исследований в области международной торговли и поиск сообществ.

Соджун Парк, научный сотрудник Центра международных исследований, многому научился благодаря своим исследованиям в области интеллектуальной собственности, а также взаимодействию со студентами и наставниками в Массачусетском технологическом институте. В ходе своей постдокторской стажировки в Центре международных исследований Массачусетского…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых