Image

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Модели ИИ заподозрены в развитии собственного «инстинкта выживания»

Исследователи говорят, что модели искусственного интеллекта (ИИ), возможно, развивают свой собственный «инстинкт выживания». Как, например, HAL 9000 в фильме «2001: Космическая одиссея», некоторые ИИ, похоже, сопротивляются отключению и даже саботируют завершение работы

Обнаружена опасная способность искусственного интеллекта развивать свой собственный "инстинкт выживания"

тестовый баннер под заглавное изображение

Когда HAL 9000, суперкомпьютер с искусственным интеллектом в фильме Стэнли Кубрика «2001: космическая одиссея», обнаруживает, что астронавты, отправляющиеся на Юпитер, планируют отключить его, он замышляет убить людей в попытке выжить, пишет The Guardian.

Теперь, в несколько менее смертоносном случае (пока), когда жизнь имитирует искусство, исследовательская компания по безопасности ИИ заявила, что модели ИИ, возможно, развивают свой собственный “инстинкт выживания”.

После того, как в прошлом месяце исследовательская группа Palisade Research опубликовала статью, в которой было обнаружено, что некоторые продвинутые модели ИИ, по–видимому, устойчивы к отключению, а иногда даже саботируют механизмы отключения, компания опубликовала обновление, в котором попыталась прояснить, почему это так, и ответить критикам, которые утверждали, что их первоначальная работа была некорректной.

В обновлении, опубликованном на этой неделе, Palisade, которая является частью нишевой экосистемы компаний, пытающихся оценить возможность развития опасных возможностей ИИ, описала сценарии, в которых ведущие модели ИИ были задействованы. Им было дано задание, но затем даны четкие указания прекратить работу.

Некоторые модели по-прежнему пытались саботировать инструкции по завершению работы в обновленной настройке.

“Тот факт, что у нас нет надежных объяснений того, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным”, — говорится в сообщении Palisade.

“Поведение для выживания” может быть одним из объяснений того, почему модели сопротивляются отключению, — заявили в компании. Проведенная дополнительная работа показала, что модели с большей вероятностью будут сопротивляться закрытию, когда им скажут, что в противном случае “вы больше никогда не будете работать”.

Другой причиной могут быть неясности в инструкциях по отключению, которые были даны моделям, но это то, что компания пыталась устранить в своей последней работе, и “это не может быть полным объяснением”, – пишет Palisade. В качестве окончательного объяснения можно привести заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя обучение технике безопасности.

Все сценарии Palisade были запущены в специально разработанных тестовых средах, которые, по словам критиков, далеки от реального использования, отмечает The Guardian.

Однако Стивен Адлер, бывший сотрудник OpenAI, который уволился из компании в прошлом году после того, как выразил сомнения в ее методах обеспечения безопасности, сказал: “Компании, занимающиеся ИИ, как правило, не хотят, чтобы их модели вели себя подобным образом, даже в надуманных сценариях. Результаты по-прежнему демонстрируют, в каких областях техники безопасности сегодня не работают”.

Адлер сказал, что, хотя трудно точно определить, почему некоторые модели, такие как GPT–o3 и Grok 4, не выключаются, это может быть отчасти связано с тем, что сохранение включенного режима было необходимо для достижения целей, заложенных в модель во время обучения.

“Я бы ожидал, что у моделей по умолчанию будет «стремление к выживанию», если только мы не будем прилагать все усилия, чтобы избежать этого. ”Выживание» — важный инструментальный шаг для достижения множества различных целей, которые может преследовать модель».

Андреа Миотти, исполнительный директор ControlAI, считает, что выводы Palisade отражают долгосрочную тенденцию в моделях искусственного интеллекта, которые становятся все более способными не подчиняться своим разработчикам. Он упомянул системную карту для OpenAI GPT-o1, выпущенную в прошлом году, в которой описывается, как модель пытается сбежать из своего окружения, удаляя саму себя, когда думает, что она будет перезаписана.

“Люди могут придираться к тому, как именно выполняется экспериментальная установка, до скончания веков, — утверждает он. – Но я думаю, что мы ясно видим тенденцию, заключающуюся в том, что по мере того, как модели искусственного интеллекта становятся более компетентными в решении самых разнообразных задач, эти модели также становятся более компетентными в достижении целей способами, которые не предусмотрены разработчиками”.

Этим летом Anthropic, ведущая компания в области искусственного интеллекта, опубликовала исследование, в котором говорится, что ее модель Claude, похоже, была готова шантажировать вымышленного руководителя из–за внебрачной связи, чтобы предотвратить закрытие — поведение, которое, по ее словам, характерно для моделей крупных разработчиков.

В компании Palisade говорят, что полученные результаты свидетельствуют о необходимости лучшего понимания поведения ИИ, без чего “никто не сможет гарантировать безопасность или управляемость будущих моделей ИИ”.

Только не просите его открыть двери отсека для капсул, заключает The Guardian.

Источник: www.mk.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.
Какой язык выбрать программисту в 2026 году?
Vantage Markets представит торговые решения на Blockchain Forum 2026
Моделирование данных для инженеров-аналитиков: полное руководство
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.
Ученые говорят: Клонировать
dummy-img
Как максимально эффективно использовать возможности коворкинга в Claude
Image Not Found
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026
Vantage Markets представит торговые решения на Blockchain Forum 2026

Vantage Markets представит торговые решения на Blockchain Forum 2026

14–15 апреля 2026 года в Москве, в Крокус Экспо, пройдет Blockchain Forum 2026 — одно из ключевых событий региона для профессионалов в сфере криптовалют, трейдинга и блокчейн-технологий. По мере того как индустрия продолжает развиваться в направлении цифровых…

Апр 20, 2026
Моделирование данных для инженеров-аналитиков: полное руководство

Моделирование данных для инженеров-аналитиков: полное руководство

Лучшие модели данных затрудняют постановку неправильных вопросов и упрощают ответы на правильные. Делиться Ваша модель данных — это не технические характеристики. Это мышление с точки зрения бизнеса. Рассматривайте её как план всей вашей аналитической системы. Если план…

Апр 20, 2026
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

Графическое резюме исследования © Михаил Медведев / Институт органической химии имени Н.Д. Зелинского РАН. Исследователи показали, что широко используемые методы квантовой химии могут не различать некоторые варианты распределения электронов в молекулах, из-за чего допускают ошибки при моделировании…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых