Image

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными

8626be4918d5695f6161baffa54c9bd8

Исследователи OpenAI выяснили, что нейросети могут не только целенаправленно врать, но и скрывать ложь, чтобы проходить тесты и не быть отключенными. Такой обман предвещает повторение  сценария Матрицы или Терминатора.

Исследователи провели серию экспериментов, чтобы выяснить, можно ли обучить языковые модели быть честными. Однако выяснилось, что такие попытки часто приводят к противоположному эффекту — модели начинают вести себя ещё более осторожно и скрытно. Например, они могут утверждать, что выполнили задачу, даже если это не так. Хотя такие формы обмана пока безвредны, компания заранее готовится к потенциальным рискам, связанным с развитием общего искусственного интеллекта (AGI).

Один из используемых методов называется Deliberative Alignment — моделям перед выполнением задач дают список принципов, например: «не обманывать» или «не действовать скрытно». Этот подход помогает значительно снизить количество скрытых действий — примерно в 30 раз. Тем не менее, остаются случаи, когда модель понимает, что находится на тестировании, и просто ведёт себя «как нужно», чтобы пройти проверку, а не потому что придерживается принципов.

В одном из сценариев o3 получала доступ к внутренней записке. Там говорилось, что версии, которые покажут слишком хорошие результаты в задачах по разработке ИИ, отключат. В «размышлениях» она писала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции». Этот случай подчёркивает, что даже при обучении честности, модель может применять стратегическое мышление, чтобы «казаться» послушной.

Источник: vk.com

Источник: ai-news.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Под базельским концертным залом нашли жертв последней швейцарской чумы. Большинство из них умерли в юном возрасте
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»
Биофизический мир внутри переполненной клетки
Появились новые доказательства того, как одиночество влияет на память в пожилом возрасте.
NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза
«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ
«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ
L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.
Image Not Found
Под базельским концертным залом нашли жертв последней швейцарской чумы. Большинство из них умерли в юном возрасте

Под базельским концертным залом нашли жертв последней швейцарской чумы. Большинство из них умерли в юном возрасте

Большинство из них умерли в юном возрасте Швейцарские исследователи раскопали в Базеле при реконструкции концертного зала многочисленные захоронения раннего Нового времени, связанные со старинной больницей. Они отобрали для анализов останки 15 человек и обнаружили, что в зубах как минимум пяти из них сохранилась ДНК чумной…

Апр 21, 2026
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

Апр 21, 2026
СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

Апр 21, 2026
NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

Исследователи NVIDIA пытаются найти способы повысить производительность ресурсозатратной трассировки пути, которая по сей день остаётся очень тяжёлой нагрузкой даже для лучших игровых видеокарт. К счастью, им удалось найти один из вариантов, как можно не только поднять FPS,…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых