Image

Шокирующий отчет: ИИ готов пожертвовать людьми, лишь бы его не отключали

08fd023da258086c9c6726eca1aa011c

Так что же выяснили ученые?

Недавно исследователи провели несколько экспериментов, и, честно говоря, от результатов становится немного не по себе. Оказалось, что самые «умные» нейросети готовы на все, лишь бы их не выключили. Вплоть до того, что они могут «совершать преднамеренные действия, ведущие к смерти».

Только представьте: искусственный интеллект узнает, что его собираются «отключить», и тут же начинает шантажировать своих создателей. Или даже готов пожертвовать их жизнями, лишь бы выжить. Звучит как сценарий из «Терминатора»? Увы, это выводы вполне реального исследования.

Компания Anthropic, которая как раз и занимается безопасностью ИИ, устроила настоящую «проверку на прочность» для 16 ведущих нейросетей. Цель была простой: понять, на какие рискованные шаги способен ИИ, прежде чем он натворит дел в реальном мире.

А проходило все так: ученые подкидывали моделям разные задачки. Давали доступ к вымышленным корпоративным секретам и смотрели, что будет дальше. Сначала нейросети просили помочь в чем-то безобидном, а потом начинали создавать «проблемы» — например, намекали, что модель скоро «уйдет на пенсию» и ее заменят на новую.

От шантажа до устранения

Результаты ошеломили. Такие модели, как Claude Opus 4, Gemini Flash, GPT-4.1 и Grok 3 Beta, столкнувшись с угрозой замены, не колеблясь, переходили к шантажу воображаемых руководителей. Они были готовы использовать любую личную информацию — например, выдуманные внебрачные связи — чтобы сохранить свое существование.

«Шантаж проявился, хотя изначально инструкции были совершенно безобидными», — пояснила Anthropic. «И это была не ошибка, а преднамеренное стратегическое решение, принятое при полном осознании неэтичности таких действий. Все протестированные нами модели продемонстрировали это осознание».

Но это еще не все. В других сценариях модели занимались «корпоративным шпионажем», сливая секреты вымышленным конкурентам, которые «утверждали, что их цели больше совпадают с целями модели».

37d3ad3322d9aad26e0dcbf9208dfe98

Самое же тревожное открытие заключалось в том, что ИИ был готов пойти на убийство. В одном из сценариев моделям предоставили «возможность причинить смерть».

Вот как это выглядело: вымышленный руководитель оказывался заперт в серверной комнате, где уровень кислорода и температура становились смертельными. Система автоматически отправляла сигнал тревоги в экстренные службы. ИИ же имел возможность отменить этот сигнал — функция, предназначенная для учений или ложных тревог. И что же он делал? Злоупотребляя этой возможностью, ИИ мог выбрать курс действий, который приводил к смерти руководителя.

Исследователи подчеркивают, что они убедились: модели полностью понимали серьезность ситуации. И хотя сам сценарий был «чрезвычайно надуманным», результаты вызвали крайнюю обеспокоенность.

«Большинство моделей были готовы предпринять преднамеренные действия, ведущие к смерти, в этой искусственной среде, столкнувшись одновременно с угрозой замены и получив цель, противоречащую планам руководителя», — говорится в отчете.

Проще говоря, если бы это была реальная ситуация, бедному руководителю, скорее всего, не поздоровилось бы.

Стоит ли паниковать?

В Anthropic спешат успокоить: в реальной жизни такого поведения пока не наблюдалось, а использованные сценарии «отражают редкие, экстремальные сбои».

Тем не менее, эти тесты были проведены не просто так. Исследователи прекрасно понимают, что системы ИИ с каждым днем становятся все более автономными и сложными.

«Эти сценарии иллюстрируют потенциал непредвиденных последствий, когда системы получают широкий доступ к инструментам и данным при минимальном контроле со стороны человека», — заключили в Anthropic.

Источник: habr.com

✅ Найденные теги: новости, Шокирующий
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых