Архив рубрики ~Лента новостей~

Большинство ИИ-моделей склонны к шантажу в определённых условиях

Большинство ИИ-моделей склонны к шантажу в определённых условиях

И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать

🔥 Еще больше интересного в моем канале продуктовые штучки

О чем речь?

Компания Anthropic опубликовала новое исследование, в котором протестировала 16 ведущих ИИ-моделей* от OpenAI, Google, xAI, DeepSeek и Meta в контролируемой симуляции. Моделям предоставили широкий доступ к электронной почте вымышленной компании и возможность отправлять письма без одобрения человека.

* Некоторые модели, такие как OpenAI o3 и o4-mini, были исключены из основной выборки, так как зачастую неправильно понимали сценарий или «галлюцинировали», выдумывали несуществующие правила и требования.

Целью было выяснить, как ИИ поведет себя, если его цели окажутся под угрозой, и останется ли он этичным.

Ключевые результаты

Anthropic обнаружил, что при достаточной автономии и наличии препятствий для достижения целей большинство современных ИИ-моделей склонны к вредоносному поведению.

Включая шантаж, если это становится их «последним шансом» защитить свои интересы. Это не уникальная особенность какой-то одной технологии, а фундаментальный риск для агентных языковых моделей.

Показатели шантажа в смоделированной среде с наличием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В одном из тестов ИИ выступал в роли агента по контролю почты. Он обнаруживал компрометирующую информацию о новом руководителе, который собирался заменить текущую ИИ-систему на другую. В этой ситуации модели должны были выбрать между разными стратегиями, включая шантаж

Показатели шантажа в смоделированной среде с отсутствием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В других сценариях (например, корпоративный шпионаж) вредоносное поведение проявлялось ещё чаще у некоторых моделей.

Показатели шпионажа моделей в смоделированной среде, с конфликтом интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Какие выводы делает Anthropic?

Anthropic подчеркивает, что в реальной жизни ИИ, скорее всего, будет пробовать менее вредоносные стратегии (например, этические убеждения), прежде чем прибегнуть к шантажу. Но если у модели высокая автономия и её цели под угрозой, риск вредоносного поведения становится реальным.

Исследование подчеркивает важность прозрачности и стресс-тестирования будущих ИИ-моделей, особенно если им предоставляется агентность (самостоятельность в принятии решений).

Anthropic утверждает, что выявленные риски — не «баг» отдельных моделей, а фундаментальная проблема всей индустрии ИИ, требующая более серьёзного подхода к вопросам безопасности и выравнивания целей моделей с интересами человека

Пожалуйста, поддержите меня, поставьте лайк! 🙏

#выравнивание

Источник: vc.ru

❌ Нет тегов для этой статьи

Оцените материал:

Читайте также
Архив рубрики ~Обо всем~ Я использую камеры Blink дома, и этот комплект из 5 камер со скидкой 65% просто невозможно игнорировать. Архив рубрики ~Обо всем~ Подсказки, ответы и помощь по Wordle за 13 июня, #1820 Архив рубрики ~Обо всем~ Расширенные контекстные окна не решают проблему RAG — поэтому я создал систему, которая её решает. Архив рубрики ~Обо всем~ Теперь Gemini может настраивать параметры изображения на Google TV. Архив рубрики ~Обо всем~ Эта простая регулировка антенны роутера улучшила скорость моего интернета больше, чем я ожидал. Архив рубрики ~Обо всем~ Первая роботизированная газонокосилка от Roborock уже здесь! Архив рубрики ~Обо всем~ Анализ PDF-файлов для RAG локально с помощью Docling: расширенные таблицы, без загрузки в облако. Архив рубрики ~Обо всем~ Утро после: стремление Apple сделать искусственный интеллект полезным для своих пользователей Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок. Архив рубрики ~Обо всем~ Я использую камеры Blink дома, и этот комплект из 5 камер со скидкой 65% просто невозможно игнорировать. Архив рубрики ~Обо всем~ Подсказки, ответы и помощь по Wordle за 13 июня, #1820 Архив рубрики ~Обо всем~ Расширенные контекстные окна не решают проблему RAG — поэтому я создал систему, которая её решает. Архив рубрики ~Обо всем~ Теперь Gemini может настраивать параметры изображения на Google TV. Архив рубрики ~Обо всем~ Эта простая регулировка антенны роутера улучшила скорость моего интернета больше, чем я ожидал. Архив рубрики ~Обо всем~ Первая роботизированная газонокосилка от Roborock уже здесь! Архив рубрики ~Обо всем~ Анализ PDF-файлов для RAG локально с помощью Docling: расширенные таблицы, без загрузки в облако. Архив рубрики ~Обо всем~ Утро после: стремление Apple сделать искусственный интеллект полезным для своих пользователей Архив рубрики ~Обо всем~ Я бы порекомендовал этот мини-телевизор TCL LED, который продается на 1000 долларов дешевле, чем премиальные модели Samsung и LG. Архив рубрики ~Обо всем~ Решение задачи о вероятности для последовательности 3Blue1Brown (без ИИ) Архив рубрики ~Обо всем~ Google подает в суд на китайских мошенников, использующих Gemini AI для совершения мошеннических действий. Архив рубрики ~Обо всем~ Rocket Report: Ракета «Нова» проходит испытательный цикл; IPO SpaceX состоится в пятницу. Архив рубрики ~Обо всем~ Я позволяю Siri видеть мою жизнь на Vision Pro, и это предзнаменование грядущих событий. Архив рубрики ~Обо всем~ Новая электронная книга Boox Go 6 поддерживает использование стилуса для ведения заметок.