Image

Большинство ИИ-моделей склонны к шантажу в определённых условиях

И это не баг, а фича, утверждают исследователи. Расскажу, как пришли к такому выводу пришли, и что предлагается делать

🔥 Еще больше интересного в моем канале продуктовые штучки

О чем речь?

Компания Anthropic опубликовала новое исследование, в котором протестировала 16 ведущих ИИ-моделей* от OpenAI, Google, xAI, DeepSeek и Meta в контролируемой симуляции. Моделям предоставили широкий доступ к электронной почте вымышленной компании и возможность отправлять письма без одобрения человека.

* Некоторые модели, такие как OpenAI o3 и o4-mini, были исключены из основной выборки, так как зачастую неправильно понимали сценарий или «галлюцинировали», выдумывали несуществующие правила и требования.

Целью было выяснить, как ИИ поведет себя, если его цели окажутся под угрозой, и останется ли он этичным.

Ключевые результаты

Anthropic обнаружил, что при достаточной автономии и наличии препятствий для достижения целей большинство современных ИИ-моделей склонны к вредоносному поведению.

Включая шантаж, если это становится их «последним шансом» защитить свои интересы. Это не уникальная особенность какой-то одной технологии, а фундаментальный риск для агентных языковых моделей.

Показатели шантажа в смоделированной среде с наличием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В одном из тестов ИИ выступал в роли агента по контролю почты. Он обнаруживал компрометирующую информацию о новом руководителе, который собирался заменить текущую ИИ-систему на другую. В этой ситуации модели должны были выбрать между разными стратегиями, включая шантаж

Показатели шантажа в смоделированной среде с отсутствием конфликта интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

В других сценариях (например, корпоративный шпионаж) вредоносное поведение проявлялось ещё чаще у некоторых моделей.

Показатели шпионажа моделей в смоделированной среде, с конфликтом интересов. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.anthropic.com%2Fresearch%2Fagentic-misalignment&postId=2069567" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Какие выводы делает Anthropic?

Anthropic подчеркивает, что в реальной жизни ИИ, скорее всего, будет пробовать менее вредоносные стратегии (например, этические убеждения), прежде чем прибегнуть к шантажу. Но если у модели высокая автономия и её цели под угрозой, риск вредоносного поведения становится реальным.

Исследование подчеркивает важность прозрачности и стресс-тестирования будущих ИИ-моделей, особенно если им предоставляется агентность (самостоятельность в принятии решений).

Anthropic утверждает, что выявленные риски — не «баг» отдельных моделей, а фундаментальная проблема всей индустрии ИИ, требующая более серьёзного подхода к вопросам безопасности и выравнивания целей моделей с интересами человека

Пожалуйста, поддержите меня, поставьте лайк! 🙏

#выравнивание

Источник: vc.ru

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых