Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными

8626be4918d5695f6161baffa54c9bd8

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными. Такой обман предвещает повторение  сценария Матрицы или Терминатора.

Исследователи провели серию экспериментов, чтобы выяснить, можно ли обучить языковые модели быть честными. Однако выяснилось, что такие попытки часто приводят к противоположному эффекту — модели начинают вести себя ещё более осторожно и скрытно. Например, они могут утверждать, что выполнили задачу, даже если это не так. Хотя такие формы обмана пока безвредны, компания заранее готовится к потенциальным рискам, связанным с развитием общего искусственного интеллекта (AGI).

Один из используемых методов называется Deliberative Alignment — моделям перед выполнением задач дают список принципов, например: «не обманывать» или «не действовать скрытно». Этот подход помогает значительно снизить количество скрытых действий — примерно в 30 раз. Тем не менее, остаются случаи, когда модель понимает, что находится на тестировании, и просто ведёт себя «как нужно», чтобы пройти проверку, а не потому что придерживается принципов.

В одном из сценариев o3 получала доступ к внутренней записке. Там говорилось, что версии, которые покажут слишком хорошие результаты в задачах по разработке ИИ, отключат. В «размышлениях» она писала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции». Этот случай подчёркивает, что даже при обучении честности, модель может применять стратегическое мышление, чтобы «казаться» послушной.

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: Исследователи, новости

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Китайские шпионы используют LinkedIn, чтобы заманивать жителей Запада к передаче конфиденциальной информации. Архив рубрики ~Лента новостей~: Параноидное расстройство личности Архив рубрики ~Лента новостей~: Valve подтвердила запуск Steam Machine и Steam Frame этим летом Архив рубрики ~Лента новостей~: Azure Linux 4.0 — это первая универсальная операционная система Linux от Microsoft. Архив рубрики ~Лента новостей~: В преддверии IPO Даниэла Амодей из Anthropic отмахивается от сомнений относительно доходности AI. Архив рубрики ~Лента новостей~: Почему главная угроза робототехнике — не техническая Архив рубрики ~Лента новостей~: Тысячи людей подписали петицию против сокращения технической поддержки для студентов с ограниченными возможностями в Англии. Архив рубрики ~Лента новостей~: [Перевод] Научные аргументы в пользу того, почему Плутон нужно (снова) сделать планетой