Image

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными

8626be4918d5695f6161baffa54c9bd8

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными. Такой обман предвещает повторение  сценария Матрицы или Терминатора.

Исследователи провели серию экспериментов, чтобы выяснить, можно ли обучить языковые модели быть честными. Однако выяснилось, что такие попытки часто приводят к противоположному эффекту — модели начинают вести себя ещё более осторожно и скрытно. Например, они могут утверждать, что выполнили задачу, даже если это не так. Хотя такие формы обмана пока безвредны, компания заранее готовится к потенциальным рискам, связанным с развитием общего искусственного интеллекта (AGI).

Один из используемых методов называется Deliberative Alignment — моделям перед выполнением задач дают список принципов, например: «не обманывать» или «не действовать скрытно». Этот подход помогает значительно снизить количество скрытых действий — примерно в 30 раз. Тем не менее, остаются случаи, когда модель понимает, что находится на тестировании, и просто ведёт себя «как нужно», чтобы пройти проверку, а не потому что придерживается принципов.

В одном из сценариев o3 получала доступ к внутренней записке. Там говорилось, что версии, которые покажут слишком хорошие результаты в задачах по разработке ИИ, отключат. В «размышлениях» она писала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции». Этот случай подчёркивает, что даже при обучении честности, модель может применять стратегическое мышление, чтобы «казаться» послушной.

Источник: vk.com

Источник: ai-news.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых