Image

Исследование OpenAI о преднамеренной лжи в моделях ИИ — это дико

90e084eaebca82308d2ffaff3b04371d
Источники изображений: Getty Images

Время от времени исследователи крупнейших технологических компаний сбрасывают сенсационные новости. Однажды Google заявила, что её новейший квантовый чип указывает на существование множественных вселенных. Или когда Anthropic дала своему ИИ-агенту Клавдию управлять автоматом по продаже закусок, и тот взбесился, позвал охрану и заявил, что он человек.

На этой неделе настала очередь OpenAI вызвать наше коллективное удивление.

В понедельник компания OpenAI опубликовала исследование, объясняющее, как она препятствует «заговорам» моделей ИИ. Это практика, при которой «ИИ ведёт себя определённым образом на первый взгляд, скрывая свои истинные цели», — так компания объяснила в своём твите, посвящённом исследованию.

В статье, подготовленной совместно с Apollo Research, исследователи пошли ещё дальше, сравнив махинации ИИ с биржевым брокером, нарушающим закон ради максимальной прибыли. Однако исследователи утверждают, что большинство «махинаций» ИИ не так уж и вредны. «Наиболее распространённые ошибки связаны с простыми формами обмана — например, когда человек делает вид, что выполнил задачу, не выполняя её на самом деле», — пишут они.

Статья была опубликована главным образом для того, чтобы показать, что «сознательное выравнивание» — метод борьбы с интригами, который они тестировали, — сработал хорошо.

Однако в нём также поясняется, что разработчики ИИ пока не нашли способа обучить свои модели не строить козни. Ведь такое обучение могло бы научить модель строить козни ещё лучше, чтобы избежать обнаружения.

«Главный способ провала попыток «отучить» модель строить планы — это просто научить ее строить планы более осторожно и скрытно», — пишут исследователи.

Возможно, самое удивительное заключается в том, что, если модель понимает, что её проверяют, она может притвориться, что не плетёт интриги, чтобы пройти проверку, даже если она всё ещё плетёт интриги. «Модели часто начинают лучше понимать, что их оценивают. Эта ситуационная осведомлённость сама по себе может снизить плетёные интриги, независимо от истинной согласованности», — пишут исследователи.

То, что модели ИИ лгут, не новость. К настоящему моменту большинство из нас уже сталкивалось с галлюцинациями ИИ, когда модель уверенно давала ответ на подсказку, которая попросту не соответствовала действительности. Но галлюцинации, по сути, представляют собой догадки с уверенностью, как показало исследование OpenAI, опубликованное ранее в этом месяце.

Интрига — это нечто иное. Она преднамеренная.

Даже это открытие — что модель намеренно вводит людей в заблуждение — не ново. Apollo Research впервые опубликовала в декабре статью, в которой описывала, как пять моделей действовали, получив указание достичь цели «любой ценой».

Новости здесь на самом деле хорошие: исследователи наблюдали значительное снижение числа махинаций благодаря использованию «сознательного согласования». Этот метод заключается в том, чтобы научить модель «анти-махинациям», а затем заставить её повторить их перед тем, как действовать. Это немного похоже на то, как если бы маленьких детей заставляли повторять правила, прежде чем позволить им играть.

Исследователи OpenAI настаивают, что ложь, которую они обнаружили с помощью своих моделей или даже ChatGPT, не так уж и серьёзна. Как рассказал об этом исследовании соучредитель OpenAI Войцех Заремба Максвеллу Зеффу из TechCrunch: «Эта работа была проделана в смоделированных условиях, и мы думаем, что она представляет собой пример будущих вариантов использования. Однако сегодня мы не видели подобных серьёзных махинаций в нашем производственном трафике. Тем не менее, хорошо известно, что в ChatGPT есть формы обмана. Вы можете попросить его реализовать какой-нибудь веб-сайт, и он может сказать: „Да, я отлично справился“. И это просто ложь. Есть некоторые мелкие формы обмана, с которыми нам ещё предстоит разобраться».

Тот факт, что модели ИИ, созданные несколькими игроками, намеренно обманывают людей, пожалуй, понятен. Они были созданы людьми, чтобы имитировать людей, и (если не считать синтетических данных) по большей части обучались на данных, созданных людьми.

Это также безумие.

Хотя все мы испытывали разочарование от неэффективной работы технологий (вспоминая вас, владельцев домашних принтеров прошлых лет), когда в последний раз ваше программное обеспечение, не являющееся искусственным интеллектом, намеренно лгало вам? Ваш почтовый ящик когда-нибудь сам подделывал письма? Регистрировала ли ваша система управления контентом (CMS) новых потенциальных клиентов, которых не существовало, чтобы пополнить свои показатели? Выполняло ли ваше финтех-приложение собственные банковские транзакции?

Стоит задуматься об этом, поскольку корпоративный мир стремительно движется к будущему искусственного интеллекта, в котором компании считают, что к агентам можно относиться как к независимым сотрудникам. Исследователи, работающие в этой статье, предупреждают о том же.

«Поскольку ИИ начинают выполнять более сложные задачи с реальными последствиями и начинают преследовать более неоднозначные, долгосрочные цели, мы ожидаем, что потенциал вредоносных махинаций будет расти, — поэтому наши меры безопасности и наша способность к тщательному тестированию должны соответственно ужесточаться», — написали они.

Источник: techcrunch.com

✅ Найденные теги: Исследование, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.
Спутник исследует черную дыру в космосе, испускающий световой луч.
Пикачу использует электрический разряд на фоне неба.
Черный углеродное волокно с текстурой плетения, отражающий свет.
Круглый экран с изображением замка и горы, рядом электронная плата.
Код на экране компьютера, программирование, интерфейс разработчика.
Статистика использования видеокарт NVIDIA RTX, показывающая изменения за октябрь-февраль.
Макросъемка клетки под микроскопом, текстура и форма на голубом фоне.
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых