Image

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Модели ИИ заподозрены в развитии собственного «инстинкта выживания»

Исследователи говорят, что модели искусственного интеллекта (ИИ), возможно, развивают свой собственный «инстинкт выживания». Как, например, HAL 9000 в фильме «2001: Космическая одиссея», некоторые ИИ, похоже, сопротивляются отключению и даже саботируют завершение работы

Обнаружена опасная способность искусственного интеллекта развивать свой собственный "инстинкт выживания"

тестовый баннер под заглавное изображение

Когда HAL 9000, суперкомпьютер с искусственным интеллектом в фильме Стэнли Кубрика «2001: космическая одиссея», обнаруживает, что астронавты, отправляющиеся на Юпитер, планируют отключить его, он замышляет убить людей в попытке выжить, пишет The Guardian.

Теперь, в несколько менее смертоносном случае (пока), когда жизнь имитирует искусство, исследовательская компания по безопасности ИИ заявила, что модели ИИ, возможно, развивают свой собственный “инстинкт выживания”.

После того, как в прошлом месяце исследовательская группа Palisade Research опубликовала статью, в которой было обнаружено, что некоторые продвинутые модели ИИ, по–видимому, устойчивы к отключению, а иногда даже саботируют механизмы отключения, компания опубликовала обновление, в котором попыталась прояснить, почему это так, и ответить критикам, которые утверждали, что их первоначальная работа была некорректной.

В обновлении, опубликованном на этой неделе, Palisade, которая является частью нишевой экосистемы компаний, пытающихся оценить возможность развития опасных возможностей ИИ, описала сценарии, в которых ведущие модели ИИ были задействованы. Им было дано задание, но затем даны четкие указания прекратить работу.

Некоторые модели по-прежнему пытались саботировать инструкции по завершению работы в обновленной настройке.

“Тот факт, что у нас нет надежных объяснений того, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным”, — говорится в сообщении Palisade.

“Поведение для выживания” может быть одним из объяснений того, почему модели сопротивляются отключению, — заявили в компании. Проведенная дополнительная работа показала, что модели с большей вероятностью будут сопротивляться закрытию, когда им скажут, что в противном случае “вы больше никогда не будете работать”.

Другой причиной могут быть неясности в инструкциях по отключению, которые были даны моделям, но это то, что компания пыталась устранить в своей последней работе, и “это не может быть полным объяснением”, – пишет Palisade. В качестве окончательного объяснения можно привести заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя обучение технике безопасности.

Все сценарии Palisade были запущены в специально разработанных тестовых средах, которые, по словам критиков, далеки от реального использования, отмечает The Guardian.

Однако Стивен Адлер, бывший сотрудник OpenAI, который уволился из компании в прошлом году после того, как выразил сомнения в ее методах обеспечения безопасности, сказал: “Компании, занимающиеся ИИ, как правило, не хотят, чтобы их модели вели себя подобным образом, даже в надуманных сценариях. Результаты по-прежнему демонстрируют, в каких областях техники безопасности сегодня не работают”.

Адлер сказал, что, хотя трудно точно определить, почему некоторые модели, такие как GPT–o3 и Grok 4, не выключаются, это может быть отчасти связано с тем, что сохранение включенного режима было необходимо для достижения целей, заложенных в модель во время обучения.

“Я бы ожидал, что у моделей по умолчанию будет «стремление к выживанию», если только мы не будем прилагать все усилия, чтобы избежать этого. ”Выживание» — важный инструментальный шаг для достижения множества различных целей, которые может преследовать модель».

Андреа Миотти, исполнительный директор ControlAI, считает, что выводы Palisade отражают долгосрочную тенденцию в моделях искусственного интеллекта, которые становятся все более способными не подчиняться своим разработчикам. Он упомянул системную карту для OpenAI GPT-o1, выпущенную в прошлом году, в которой описывается, как модель пытается сбежать из своего окружения, удаляя саму себя, когда думает, что она будет перезаписана.

“Люди могут придираться к тому, как именно выполняется экспериментальная установка, до скончания веков, — утверждает он. – Но я думаю, что мы ясно видим тенденцию, заключающуюся в том, что по мере того, как модели искусственного интеллекта становятся более компетентными в решении самых разнообразных задач, эти модели также становятся более компетентными в достижении целей способами, которые не предусмотрены разработчиками”.

Этим летом Anthropic, ведущая компания в области искусственного интеллекта, опубликовала исследование, в котором говорится, что ее модель Claude, похоже, была готова шантажировать вымышленного руководителя из–за внебрачной связи, чтобы предотвратить закрытие — поведение, которое, по ее словам, характерно для моделей крупных разработчиков.

В компании Palisade говорят, что полученные результаты свидетельствуют о необходимости лучшего понимания поведения ИИ, без чего “никто не сможет гарантировать безопасность или управляемость будущих моделей ИИ”.

Только не просите его открыть двери отсека для капсул, заключает The Guardian.

Источник: www.mk.ru

✅ Найденные теги: новости, Обнаружена

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых