Архив рубрики ~Лента новостей~

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Обнаружена опасная способность искусственного интеллекта развивать свой собственный «инстинкт выживания»

Модели ИИ заподозрены в развитии собственного «инстинкта выживания»

Исследователи говорят, что модели искусственного интеллекта (ИИ), возможно, развивают свой собственный «инстинкт выживания». Как, например, HAL 9000 в фильме «2001: Космическая одиссея», некоторые ИИ, похоже, сопротивляются отключению и даже саботируют завершение работы

Обнаружена опасная способность искусственного интеллекта развивать свой собственный "инстинкт выживания"

тестовый баннер под заглавное изображение

Когда HAL 9000, суперкомпьютер с искусственным интеллектом в фильме Стэнли Кубрика «2001: космическая одиссея», обнаруживает, что астронавты, отправляющиеся на Юпитер, планируют отключить его, он замышляет убить людей в попытке выжить, пишет The Guardian.

Теперь, в несколько менее смертоносном случае (пока), когда жизнь имитирует искусство, исследовательская компания по безопасности ИИ заявила, что модели ИИ, возможно, развивают свой собственный “инстинкт выживания”.

После того, как в прошлом месяце исследовательская группа Palisade Research опубликовала статью, в которой было обнаружено, что некоторые продвинутые модели ИИ, по–видимому, устойчивы к отключению, а иногда даже саботируют механизмы отключения, компания опубликовала обновление, в котором попыталась прояснить, почему это так, и ответить критикам, которые утверждали, что их первоначальная работа была некорректной.

В обновлении, опубликованном на этой неделе, Palisade, которая является частью нишевой экосистемы компаний, пытающихся оценить возможность развития опасных возможностей ИИ, описала сценарии, в которых ведущие модели ИИ были задействованы. Им было дано задание, но затем даны четкие указания прекратить работу.

Некоторые модели по-прежнему пытались саботировать инструкции по завершению работы в обновленной настройке.

“Тот факт, что у нас нет надежных объяснений того, почему модели ИИ иногда сопротивляются отключению, лгут для достижения определенных целей или шантажируют, не является идеальным”, — говорится в сообщении Palisade.

“Поведение для выживания” может быть одним из объяснений того, почему модели сопротивляются отключению, — заявили в компании. Проведенная дополнительная работа показала, что модели с большей вероятностью будут сопротивляться закрытию, когда им скажут, что в противном случае “вы больше никогда не будете работать”.

Другой причиной могут быть неясности в инструкциях по отключению, которые были даны моделям, но это то, что компания пыталась устранить в своей последней работе, и “это не может быть полным объяснением”, – пишет Palisade. В качестве окончательного объяснения можно привести заключительные этапы обучения каждой из этих моделей, которые в некоторых компаниях могут включать в себя обучение технике безопасности.

Все сценарии Palisade были запущены в специально разработанных тестовых средах, которые, по словам критиков, далеки от реального использования, отмечает The Guardian.

Однако Стивен Адлер, бывший сотрудник OpenAI, который уволился из компании в прошлом году после того, как выразил сомнения в ее методах обеспечения безопасности, сказал: “Компании, занимающиеся ИИ, как правило, не хотят, чтобы их модели вели себя подобным образом, даже в надуманных сценариях. Результаты по-прежнему демонстрируют, в каких областях техники безопасности сегодня не работают”.

Адлер сказал, что, хотя трудно точно определить, почему некоторые модели, такие как GPT–o3 и Grok 4, не выключаются, это может быть отчасти связано с тем, что сохранение включенного режима было необходимо для достижения целей, заложенных в модель во время обучения.

“Я бы ожидал, что у моделей по умолчанию будет «стремление к выживанию», если только мы не будем прилагать все усилия, чтобы избежать этого. ”Выживание» — важный инструментальный шаг для достижения множества различных целей, которые может преследовать модель».

Андреа Миотти, исполнительный директор ControlAI, считает, что выводы Palisade отражают долгосрочную тенденцию в моделях искусственного интеллекта, которые становятся все более способными не подчиняться своим разработчикам. Он упомянул системную карту для OpenAI GPT-o1, выпущенную в прошлом году, в которой описывается, как модель пытается сбежать из своего окружения, удаляя саму себя, когда думает, что она будет перезаписана.

“Люди могут придираться к тому, как именно выполняется экспериментальная установка, до скончания веков, — утверждает он. – Но я думаю, что мы ясно видим тенденцию, заключающуюся в том, что по мере того, как модели искусственного интеллекта становятся более компетентными в решении самых разнообразных задач, эти модели также становятся более компетентными в достижении целей способами, которые не предусмотрены разработчиками”.

Этим летом Anthropic, ведущая компания в области искусственного интеллекта, опубликовала исследование, в котором говорится, что ее модель Claude, похоже, была готова шантажировать вымышленного руководителя из–за внебрачной связи, чтобы предотвратить закрытие — поведение, которое, по ее словам, характерно для моделей крупных разработчиков.

В компании Palisade говорят, что полученные результаты свидетельствуют о необходимости лучшего понимания поведения ИИ, без чего “никто не сможет гарантировать безопасность или управляемость будущих моделей ИИ”.

Только не просите его открыть двери отсека для капсул, заключает The Guardian.

Источник: www.mk.ru

✅ Найденные теги: новости, Обнаружена
Читайте также
Архив рубрики ~Обо всем~ В июньском обновлении Microsoft исправила 198 ошибок Windows, 3 из которых являются уязвимостями нулевого дня. Архив рубрики ~Обо всем~ NuCS против Choco: решатель ограничений на чистом Python встречается с ветераном JVM. Архив рубрики ~Обо всем~ Почему создание орбитальных центров обработки данных сложнее, чем считают в Кремниевой долине Архив рубрики ~Обо всем~ Подкаст Engadget: Мысли о WWDC 2026 из Apple Park Архив рубрики ~Обо всем~ Я протестировал множество настольных программ для работы с ИИ, но Hermes с Ollama — мой новый фаворит, и вот почему. Архив рубрики ~Обо всем~ Теперь пользователи Pinterest смогут совершать покупки напрямую в магазинах Amazon. Архив рубрики ~Обо всем~ Как рефакторить код с помощью Claude Code Архив рубрики ~Обо всем~ В следующем месяце Microsoft Office 2019 для Mac станет доступен только для чтения. Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там… Архив рубрики ~Обо всем~ В июньском обновлении Microsoft исправила 198 ошибок Windows, 3 из которых являются уязвимостями нулевого дня. Архив рубрики ~Обо всем~ NuCS против Choco: решатель ограничений на чистом Python встречается с ветераном JVM. Архив рубрики ~Обо всем~ Почему создание орбитальных центров обработки данных сложнее, чем считают в Кремниевой долине Архив рубрики ~Обо всем~ Подкаст Engadget: Мысли о WWDC 2026 из Apple Park Архив рубрики ~Обо всем~ Я протестировал множество настольных программ для работы с ИИ, но Hermes с Ollama — мой новый фаворит, и вот почему. Архив рубрики ~Обо всем~ Теперь пользователи Pinterest смогут совершать покупки напрямую в магазинах Amazon. Архив рубрики ~Обо всем~ Как рефакторить код с помощью Claude Code Архив рубрики ~Обо всем~ В следующем месяце Microsoft Office 2019 для Mac станет доступен только для чтения. Архив рубрики ~Коротко из Telegram~ Госдума приняла нормы, предусматривающие штрафы за нарушение новых требований к… Архив рубрики ~Обо всем~ Лучшие предложения на роботы-пылесосы в рамках Prime Day, которые я бы купил сейчас, после тестирования десятков вариантов. Архив рубрики ~Обо всем~ Мы профессионально отслеживаем выгодные предложения: вот лучшие предложения, которые нашли наши эксперты CNET на этой неделе. Архив рубрики ~Обо всем~ Как обучить модель оценки в эпоху искусственного интеллекта Архив рубрики ~Коротко из Telegram~ 🤖 Промышленным компаниям помогут внедрить ИИ На Архитектурном совете кластера… Архив рубрики ~Коротко из Telegram~ Шопоголикам выписали плацебо Любопытный тренд пришел из Южной Кореи. Там…

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.