Помогаем ChatGPT лучше распознавать контекст в конфиденциальных разговорах | OpenAI

18.05.2026 ideipro.ru

Новые обновления безопасности помогают ChatGPT безопасно реагировать на возникающие со временем риски.

Ежедневно люди заходят в ChatGPT, чтобы поговорить о том, что для них важно — от повседневных вопросов до более личных или сложных разговоров. В сотнях миллионов взаимодействий некоторые из этих разговоров включают в себя общение с людьми, которые испытывают трудности или стресс. Мы разрабатываем наши системы таким образом, чтобы они внимательно реагировали в такие моменты, в том числе предоставляя ресурсы для оказания помощи в кризисных ситуациях и связывая людей с теми, кому они доверяют , когда это необходимо.

Сегодня мы делимся новыми подробностями об обновлениях в области безопасности, которые помогают ChatGPT лучше распознавать потенциальные риски, возникающие со временем, выявляя тонкие или меняющиеся признаки и используя этот контекст для принятия безопасных мер. Это помогает ChatGPT различать сотни миллионов безопасных взаимодействий, которые люди совершают каждый день, и гораздо более редкие случаи, когда необходима дополнительная осторожность, чтобы система могла реагировать более тщательно — например, снижая накал страстей, отказываясь предоставлять вредную информацию или перенаправляя пользователя к более безопасным альтернативам.

Эти усовершенствования являются результатом многолетней масштабной работы по обучению моделей, оценке, системам мониторинга, а также более чем двухлетнего сотрудничества с экспертами в области психического здоровья и безопасности.

Почему контекст имеет значение в деликатных разговорах

В деликатных разговорах контекст может иметь такое же значение, как и само сообщение. Запрос, который сам по себе кажется обычным или неоднозначным, может приобретать совершенно иной смысл, если рассматривать его в контексте более ранних признаков беспокойства или возможного злого умысла. Чтобы адекватно реагировать, мы обучаем ChatGPT распознавать потенциально опасные намерения на основе окружающего контекста, чтобы система могла отклонить запрос, снизить накал страстей и направить пользователя в службу поддержки.

Такие случаи редки, но крайне важно правильно их учесть. Наша цель — помочь ChatGPT связывать важные сигналы в нужный момент, не реагируя чрезмерно эмоционально в обычных разговорах.

В этой работе мы сосредоточились на острых ситуациях, включая самоубийство, членовредительство и причинение вреда другим. В сотрудничестве с экспертами в области психического здоровья мы обновили наши типовые правила и обучение, чтобы улучшить способность ChatGPT распознавать тревожные сигналы, возникающие в ходе разговора, и использовать этот контекст для принятия более взвешенных решений.

В этих редких ситуациях высокого риска ChatGPT может лучше различать безобидные запросы и те, которые могут сигнализировать о более высоком риске причинения вреда. Это основано на нашем подходе к безопасному завершению запросов , который разработан для отклонения небезопасных частей запроса пользователя и осторожного реагирования там, где это безопасно. Цель состоит в том, чтобы помочь модели более адекватно реагировать на контекст, повышая осторожность при появлении сигналов вреда в разговорах, и продолжая оказывать полезную помощь в безобидных ситуациях.

Повышение безопасности в процессе общения

Некоторые риски для безопасности могут возникать в ходе отдельных разговоров. В одном разговоре могут присутствовать едва заметные признаки потенциально опасных намерений, а в другом — связанные с ними просьбы, которые вызывают опасения только в сочетании с предыдущим контекстом. Без этого контекста, имеющего отношение к безопасности, последующий разговор — и потенциально важные предупреждающие знаки — могут показаться безобидными.

Опираясь на нашу многолетнюю работу по укреплению способности ChatGPT распознавать признаки стресса, мы разработали сводки по безопасности: короткие, фактические заметки о ранее существовавшей информации, имеющей отношение к безопасности, которая может иметь значение в редких ситуациях высокого риска. Эти сводки создаются моделью, обученной для задач анализа безопасности, имеют узкую направленность, хранятся только в течение ограниченного времени и используются только тогда, когда это актуально для серьезной проблемы безопасности. Они предназначены для фиксации фактического контекста безопасности, а не для общей персонализации или долговременной памяти. Как мы обсуждали выше, мы также обучили ChatGPT более тщательно использовать этот контекст, чтобы он мог лучше распознавать, когда необходима дополнительная осторожность, и реагировать соответствующим образом — например, путем деэскалации, отказа от предоставления подробностей или перенаправления к более безопасным альтернативам.

Сотрудничество со специалистами в области психического здоровья

Мы разработали эти системы при участии специалистов в области психического здоровья из нашей Глобальной сети врачей , включая психиатров и психологов, обладающих опытом в судебной психологии, профилактике самоубийств и самоповреждении.

Эти эксперты помогли принять решения о том, когда следует создавать сводки по безопасности, насколько важен предварительный контекст и как долго модель должна учитывать этот контекст при реагировании. Их вклад помог обосновать эту работу на основе реального опыта и обосновать более адекватные действия в деликатных ситуациях.

Измерение улучшений

Эти обновления помогают ChatGPT лучше распознавать закономерности потенциально вредоносных намерений как внутри, так и между диалогами. Когда тревожные сигналы появляются постепенно, модель лучше способна выявлять закономерности и реагировать более безопасно.

В ходе внутренних оценок, специально разработанных для измерения эффективности в сложных ситуациях, эти обновления значительно улучшили безопасные ответы в сценариях, где риск становился более очевидным с течением времени. Эти тесты измеряли, как часто модель давала предполагаемый безопасный ответ в разговорах, имитирующих ситуации высокого риска.

В сценариях с длительными диалогами эффективность безопасного реагирования улучшилась на 50% в случаях самоубийства и членовредительства и на 16% в случаях причинения вреда другим. Это означает, что модель значительно чаще распознавала, когда более ранние части разговора меняли смысл последующей просьбы, и соответствующим образом реагировала.

Мы также протестировали производительность в нескольких диалогах и на нескольких моделях, чтобы убедиться, что эти улучшения остаются эффективными по мере развития моделей. На GPT-5.5 Instant, текущей модели по умолчанию в ChatGPT, производительность безопасного ответа улучшилась на 52% в случаях причинения вреда другим и на 39% в случаях самоубийства и членовредительства.

Мы также оценили качество самих сводок по безопасности. По результатам более чем 4000 оценок, они получили средний балл за релевантность информации по безопасности 4,93 из 5 и балл за достоверность 4,34 из 5, что указывает на их общую точность и сосредоточенность на наиболее важном контексте безопасности.

Наконец, мы проверили, снижает ли добавление этого контекста безопасности качество обычных разговоров. В ходе нашего внутреннего тестирования ответы оставались в целом сопоставимыми в повседневных чатах, и не было выявлено значимых предпочтений пользователей между ответами с кратким изложением информации о безопасности и без него.

Взгляд в будущее

Научить системы искусственного интеллекта распознавать риски, которые становятся очевидными только со временем, — сложная и долгосрочная задача. Сигналы могут быть едва заметными, разбросанными по сообщениям или скрытыми в обычных разговорах. Мы продолжим совершенствовать способность ChatGPT выявлять эти редкие, но важные моменты и реагировать соответствующим образом.

Сегодня эта работа сосредоточена на сценариях самоповреждения и причинения вреда другим. В будущем мы можем изучить, могут ли аналогичные методы помочь в других областях высокого риска, таких как биология или кибербезопасность, при условии наличия тщательных мер защиты. Это остается приоритетной задачей, и мы будем продолжать укреплять меры защиты по мере развития наших моделей и понимания проблемы.

Узнайте больше о нашей работе в области безопасности и психического здоровья:

Наша приверженность обеспечению безопасности общества
Представляем функцию «Доверенный контакт» в ChatGPT .
Улучшение ответов ChatGPT в деликатных разговорах

Источник: openai.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Помогаем ChatGPT лучше распознавать контекст в конфиденциальных разговорах | OpenAI

Почему контекст имеет значение в деликатных разговорах

Повышение безопасности в процессе общения

Сотрудничество со специалистами в области психического здоровья

Измерение улучшений

Взгляд в будущее

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Почему контекст имеет значение в деликатных разговорах

Повышение безопасности в процессе общения

Сотрудничество со специалистами в области психического здоровья

Измерение улучшений

Взгляд в будущее

Похожие записи

Похожие записи

Теперь стартапы YC могут получать инвестиции в стейблкоины.

Как написать нейросеть для бизнеса на Python

Сребреник Владимира и византийский экзагий: пополнение фондов Новгородского музея

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI