Диаграмма преобразования политик безопасности для подростков в меры защиты.

Помогаем разработчикам создавать более безопасные приложения на основе ИИ для подростков | OpenAI

Представляем набор правил безопасности для подростков, оформленных в виде подсказок для gpt-oss-safeguard.

Сегодня мы выпускаем политики безопасности на основе подсказок (открывается в новом окне) , которые помогут разработчикам создавать средства защиты, соответствующие возрасту подростков. Эти политики, разработанные для работы с нашей открытой моделью безопасности gpt-oss-safeguard (открывается в новом окне) , упрощают процесс преобразования требований безопасности в пригодные для использования классификаторы для реальных систем.

Мы выпустили открытые модели весов, чтобы демократизировать доступ к мощному ИИ и поддержать широкие инновации. В то же время мы считаем, что безопасность и инновации идут рука об руку, и что разработчики должны иметь доступ к функциональным моделям, а также к инструментам и политикам для их безопасного и ответственного развертывания. Мы разработали эти политики, чтобы поддержать разработчиков в их усилиях по обеспечению безопасности юных пользователей, с учетом мнения авторитетных внешних организаций, включая Common Sense Media (открывается в новом окне) и everyone.ai (открывается в новом окне) .

Мы понимаем, что у подростков и взрослых разные потребности, и что подросткам необходима дополнительная защита. Эти правила призваны помочь разработчикам учитывать эти различия и создавать возможности, которые будут одновременно расширять возможности и соответствовать потребностям более молодых пользователей.

Развивая нашу более широкую работу по защите молодежи.

Мы давно стремимся создавать ИИ, который расширяет возможности для молодежи, обеспечивая при этом ее безопасность. В рамках этой работы мы обновили наши спецификации моделей (Model Spec) — руководящие принципы, определяющие предполагаемое поведение моделей OpenAI, — включив в них принципы для лиц младше 18 лет (U18) (Under-18) (Open-AI) , а также внедрили меры защиты на уровне продукта, такие как родительский контроль и прогнозирование возраста , чтобы лучше защитить молодых пользователей. Мы также призвали к внедрению общеотраслевых мер защиты в рамках нашего плана действий по обеспечению безопасности подростков (Teen Safety Blueprint ) .

Сегодняшний релиз развивает эту идею. Мы предоставляем разработчикам доступ к этим политикам безопасности, чтобы помочь им внедрять средства защиты для подростков и способствовать демократизации доступа к открытому сообществу пользователей силовых тренажеров.

Преобразование вопросов безопасности подростков в четкие и применимые на практике правила.

Хотя такие классификаторы безопасности, как gpt-oss-safeguard, могут обнаруживать вредоносный контент, их работа зависит от четкого определения того, что этот контент собой представляет. На практике одна из самых больших проблем, с которыми сталкиваются разработчики, — это определение политик, которые точно отражают риски, специфичные для подростков, и могут последовательно применяться в реальных системах.

Даже опытные команды часто испытывают трудности с преобразованием общих целей безопасности в точные, оперативные правила, особенно учитывая, что это требует как экспертных знаний в предметной области, так и глубоких знаний в области искусственного интеллекта. Это может привести к пробелам в защите, непоследовательному применению правил или слишком широкой фильтрации. Четкие, хорошо продуманные политики являются критически важной основой для эффективных систем безопасности.

Помощь разработчикам в обеспечении безопасности подростков на практике.

Для решения этой проблемы мы выпускаем набор правил безопасности (открывается в новом окне) , разработанных с учетом распространенных рисков, с которыми сталкиваются подростки, и основанных на тщательном анализе существующих исследований, посвященных уникальным особенностям развития подростков. Эти правила структурированы в виде подсказок, которые можно напрямую использовать с gpt-oss-safeguard (открывается в новом окне) и другими моделями рассуждений, что позволяет разработчикам проще применять согласованные стандарты безопасности во всех своих системах.

Первоначальная версия включает в себя политики, охватывающие следующие аспекты:

  • графическое насилие
  • Откровенные сцены сексуального характера
  • Вредные идеалы красоты и поведения, связанные с телом.
  • Опасные виды деятельности и испытания
  • Романтическая или жестокая ролевая игра
  • Товары и услуги с возрастными ограничениями

Эти правила могут использоваться для фильтрации контента в режиме реального времени, а также для анализа пользовательского контента в автономном режиме.

Благодаря структурированию политик в виде подсказок, разработчики могут легче интегрировать их в существующие рабочие процессы, адаптировать к своим задачам и совершенствовать с течением времени.

Диаграмма, отображающая категории политики безопасности подростков и контент, связанный с подростками, поступающий в систему защиты GPT-OSS, которая принимает решения, основанные на внутренних рассуждениях.

Разработано при участии внешних экспертов.

Мы сотрудничали с внешними организациями, включая Common Sense Media (открывается в новом окне) и everyone.ai (открывается в новом окне), чтобы получить информацию для разработки этих правил. Их экспертиза помогла определить объем охватываемого контента, укрепить структуру вопросов и уточнить особые случаи, которые следует учитывать при их оценке.

Данная работа отражает продолжающиеся усилия по сотрудничеству с экспертами и более широкой экосистемой с целью улучшения того, как системы искусственного интеллекта поддерживают молодежь.

«Одним из самых больших недостатков в обеспечении безопасности ИИ для подростков является отсутствие четких, оперативных правил, на основе которых разработчики могли бы создавать свои продукты. Зачастую разработчикам приходится начинать с нуля. Эти правила, основанные на подсказках, помогают установить значимый уровень безопасности во всей экосистеме, и, поскольку они выпускаются как открытый исходный код, их можно адаптировать и улучшать со временем. Нас воодушевляет то, что подобная инфраструктура становится широко доступной, и мы надеемся, что это послужит катализатором для создания большего числа общих отправных точек для обеспечения безопасности молодежи в отрасли».

Робби Торни, руководитель отдела оценки ИИ и цифровых технологий, Common Sense Media

«Подобные усилия, направленные на повышение эффективности политики безопасности молодежи, имеют большую ценность, поскольку помогают преобразовать экспертные знания в рекомендации, применимые в реальных системах. Политика в отношении контента является важным первым шагом, а также открывает двери для более широкой работы по изучению того, как образцовое поведение может формировать риски, актуальные для молодежи, с течением времени. Вдохновленные этой работой и нашими собственными исследованиями, everyone.ai (открывается в новом окне) также разработали первоначальную поведенческую политику, ориентированную на такие риски, как исключительность и чрезмерная зависимость».

Доктор Матильда Чериоли, главный научный сотрудник everyone.AI

Это отправная точка, а не полное решение.

Данные правила предназначены в качестве отправной точки, а не как всеобъемлющее или окончательное определение или гарантия безопасности подростков. Каждое приложение имеет уникальные риски, целевую аудиторию и контекст, и разработчики лучше всего понимают риски, которые могут представлять их продукты и интеграция с ИИ. Мы настоятельно рекомендуем разработчикам адаптировать и расширять эти правила в соответствии со своими конкретными потребностями и сочетать их с другими мерами защиты, такими как решения в области дизайна продукта, пользовательский контроль, прозрачность, ориентированная на подростков, системы мониторинга и продуманные, соответствующие возрасту меры реагирования.

Мы считаем, что многоуровневая защита имеет решающее значение для создания более безопасных систем искусственного интеллекта. Эти правила основаны на нашем внутреннем опыте, но они не отражают в полной мере внутренние правила и меры безопасности OpenAI.

Дальнейший путь

Мы публикуем эти правила в открытом доступе через сообщество модели ROOST (открывается в новом окне), чтобы поощрять сотрудничество и итерации. Чтобы внести свой вклад, оставить отзыв или поделиться дополнительными правилами безопасности для подростков, посетите репозиторий RMC на GitHub (открывается в новом окне).

Разработчики и организации могут адаптировать эти политики к своим конкретным приложениям, переводить их на разные языки и расширять их охват, чтобы они включали дополнительные области риска. Со временем мы надеемся, что это будет способствовать созданию более надежной и общепринятой основы для внедрения политик безопасности в системах искусственного интеллекта.

Чтобы начать работу с gpt-oss-safeguard, скачайте его с сайта Hugging Face (откроется в новом окне) .

Продолжайте читать

Просмотреть все Награда за обнаружение уязвимостей в системе безопасности > художественная открытка Представляем программу OpenAI Safety Bug Bounty по поиску уязвимостей.

Безопасность 25 марта 2026 г.

Выпуск ответственной художественной открытки Sora, размер 1 x 1 Безопасное создание контента с помощью Sora.

Безопасность 23 марта 2026 г.

Мониторинг внутренних развертываний OAI на предмет рисков потери контроля. Художественная карточка 1x1 Как мы отслеживаем несоответствия в работе внутренних агентов по кодированию

Безопасность 19 марта 2026 г.

Источник: openai.com

✅ Найденные теги: OpenAI, Безопасные Приложения, ИИ, новости, подростки, Помогаем, Разработчики

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Цифровая визуализация человеческого тела с анатомическими данными и графиками анализа.
Инфографика процесса тестирования и разработки ПО в Китае с картой и диаграммами.
Силуэт человека с телефоном на фоне логотипа Meta.
Смартфон с логотипом ChatGPT на фоне технологии AI.
ideipro logotyp
Белые резервуары для хранения воды на фоне пустынного пейзажа.
ideipro logotyp
Лекция в аудитории университета, докладчики и слушатели, презентация на экране.
ideipro logotyp
Image Not Found
Цифровая визуализация человеческого тела с анатомическими данными и графиками анализа.

STAT+: За пределами обнаружения: Что в эпоху клинического ИИ считается медицинским устройством, получившим одобрение FDA как «прорыв»?

Новые революционные устройства позволяют все чаще решать проблемы, с которыми врачи просто не могут справиться. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Многие инструменты искусственного интеллекта в медицине позиционируют…

Апр 10, 2026
Инфографика процесса тестирования и разработки ПО в Китае с картой и диаграммами.

Чат-бот для студентов магистратуры, призванный облегчить переход от первичной медицинской помощи к специализированной: рандомизированное контролируемое исследование.

Данная статья обновлена. Абстрактный Большие языковые модели (БЯМ), ориентированные на пациента, обладают потенциалом для оптимизации неэффективных переходов от первичной медицинской помощи к специализированной. Мы разработали предварительную оценку (PreA), чат-бот на основе БЯМ, созданный совместно с местными заинтересованными…

Апр 10, 2026
Силуэт человека с телефоном на фоне логотипа Meta.

Лаборатория сверхинтеллекта Meta представила свою первую публичную модель, Muse Spark.

Компания Meta заявляет о высоких показателях производительности, но признает наличие «пробелов в производительности» в системах управления агентами и кодирования. Фигура стоит перед логотипом Meta, разработанным в то время, когда компания больше ориентировалась на виртуальную реальность, чем на…

Апр 10, 2026
Смартфон с логотипом ChatGPT на фоне технологии AI.

ChatGPT наконец-то предлагает тарифный план Pro за 100 долларов в месяц.

Источник изображений: Omar Marques/SOPA Images/LightRocket / Getty Images В четверг компания OpenAI объявила о том, чего давно ждали опытные пользователи: о тарифном плане за 100 долларов в месяц. До сих пор существовали следующие тарифные планы: бесплатный (теперь…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых