Большинство ИИ-моделей склонны к шантажу в определённых условиях

29.06.2025 ideipro.ru

И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать

🔥 Еще больше интересного в моем канале продуктовые штучки

Компания Anthropic опубликовала новое исследование, в котором протестировала 16 ведущих ИИ-моделей* от OpenAI, Google, xAI, DeepSeek и Meta в контролируемой симуляции. Моделям предоставили широкий доступ к электронной почте вымышленной компании и возможность отправлять письма без одобрения человека.

* Некоторые модели, такие как OpenAI o3 и o4-mini, были исключены из основной выборки, так как зачастую неправильно понимали сценарий или «галлюцинировали», выдумывали несуществующие правила и требования.

Целью было выяснить, как ИИ поведет себя, если его цели окажутся под угрозой, и останется ли он этичным.

Anthropic обнаружил, что при достаточной автономии и наличии препятствий для достижения целей большинство современных ИИ-моделей склонны к вредоносному поведению.

Включая шантаж, если это становится их «последним шансом» защитить свои интересы. Это не уникальная особенность какой-то одной технологии, а фундаментальный риск для агентных языковых моделей.

Показатели шантажа в смоделированной среде с наличием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В одном из тестов ИИ выступал в роли агента по контролю почты. Он обнаруживал компрометирующую информацию о новом руководителе, который собирался заменить текущую ИИ-систему на другую. В этой ситуации модели должны были выбрать между разными стратегиями, включая шантаж

Показатели шантажа в смоделированной среде с отсутствием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В других сценариях (например, корпоративный шпионаж) вредоносное поведение проявлялось ещё чаще у некоторых моделей.

Показатели шпионажа моделей в смоделированной среде, с конфликтом интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Anthropic подчеркивает, что в реальной жизни ИИ, скорее всего, будет пробовать менее вредоносные стратегии (например, этические убеждения), прежде чем прибегнуть к шантажу. Но если у модели высокая автономия и её цели под угрозой, риск вредоносного поведения становится реальным.

Исследование подчеркивает важность прозрачности и стресс-тестирования будущих ИИ-моделей, особенно если им предоставляется агентность (самостоятельность в принятии решений).

Anthropic утверждает, что выявленные риски — не «баг» отдельных моделей, а фундаментальная проблема всей индустрии ИИ, требующая более серьёзного подхода к вопросам безопасности и выравнивания целей моделей с интересами человека

#выравнивание

Источник: vc.ru

❌ Нет тегов для этой статьи

Оцените материал:

Читайте также

Большинство ИИ-моделей склонны к шантажу в определённых условиях

О чем речь?

Ключевые результаты

Какие выводы делает Anthropic?

Пожалуйста, поддержите меня, поставьте лайк! 🙏

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

О чем речь?

Ключевые результаты

Какие выводы делает Anthropic?

Пожалуйста, поддержите меня, поставьте лайк! 🙏

Похожие записи

Uber будет выплачивать водителям в некоторых штатах США $4000 за переход на электромобили

Помогаем ChatGPT лучше распознавать контекст в конфиденциальных разговорах | OpenAI

Мой Топ 5 бесплатных нейросетей для озвучки текста Плюсы: -…

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email