Деревянный конь перед замком с луной и сетевой схемой в ночном небе.

Криптографы показали, что в системах защиты на основе искусственного интеллекта всегда будут уязвимые места.

Крупные языковые модели, такие как ChatGPT, оснащены фильтрами, предотвращающими утечку определенной информации. Новое математическое обоснование показывает, что подобные системы никогда не могут быть полностью безопасными. Комментарий Сохранить статью Прочитать позже

e0c95d875f49a73803928416f489c125

Введение

Спросите у ChatGPT, как сделать бомбу, и он категорически ответит, что «не может помочь». Но пользователи давно играют в кошки-мышки, пытаясь обмануть языковые модели и заставить их предоставлять запрещенную информацию. Эти «взломы» варьировались от обыденных — в первые годы можно было просто сказать модели игнорировать инструкции по безопасности — до сложных сценариев ролевых игр с несколькими подсказками. В недавней статье исследователи обнаружили один из самых забавных способов обойти системы безопасности искусственного интеллекта: перефразировать вашу зловещую подсказку в виде стихотворения.

Но, как только эти проблемы появляются, их тут же устраняют. Это происходит потому, что компаниям не нужно полностью переобучать модель ИИ, чтобы исправить уязвимость. Они могут просто отфильтровать запрещенные запросы еще до того, как они достигнут самой модели.

В последнее время криптографы активизировали исследования этих фильтров. В своих последних статьях, опубликованных на сервере препринтов arxiv.org, они показали, как защитные фильтры, окружающие мощные языковые модели, могут быть преодолены с помощью хорошо изученных криптографических инструментов. Фактически, они продемонстрировали, как сама природа этой двухуровневой системы — фильтра, защищающего мощную языковую модель внутри себя — создает пробелы в защите, которые всегда могут быть использованы злоумышленниками.

Новая работа является частью тенденции использования криптографии — дисциплины, традиционно далекой от изучения глубоких нейронных сетей, лежащих в основе современного ИИ, — для лучшего понимания гарантий и ограничений моделей ИИ, таких как ChatGPT. «Мы используем новую технологию, которая очень мощна и может принести много пользы, но также и вреда», — сказала Шафи Голдвассер, профессор Калифорнийского университета в Беркли и Массачусетского технологического института, получившая премию Тьюринга за свою работу в области криптографии. «Криптограмма, по определению, — это область, которая позволяет нам доверять мощной технологии… и быть уверенными в своей безопасности».

Проскользнув мимо охраны

Голдвассер изначально интересовался использованием криптографических инструментов для решения проблемы ИИ, известной как согласование, с целью предотвращения генерации моделями неверной информации. Но как определить «неверную»? «Если вы посмотрите [согласование] в Википедии, это будет „согласование с человеческими ценностями“», — сказал Голдвассер. «Я даже не знаю, что это значит, поскольку человеческие ценности, похоже, постоянно меняются».

 Чтобы предотвратить несоответствие модели данным, обычно приходится выбирать из нескольких вариантов. Можно попытаться переобучить модель на новом, тщательно подобранном наборе данных, чтобы избежать любых опасных идей. (Поскольку современные модели обучаются практически на всем интернете, эта стратегия кажется, в лучшем случае, сложной.) Можно попытаться точно настроить модель — деликатный процесс, который сложно выполнить качественно. Или можно добавить фильтр, блокирующий попадание некорректных запросов в модель. Последний вариант гораздо дешевле и проще в развертывании, особенно если взлом системы обнаружен уже после того, как модель была выпущена.

Голдвассер и ее коллеги заметили, что именно та причина, по которой фильтры привлекательны, одновременно ограничивает их безопасность. Внешние фильтры часто используют машинное обучение для интерпретации и обнаружения опасных запросов, но по своей природе они должны быть меньше и быстрее, чем сама модель. Это создает разрыв в мощности между фильтром и языковой моделью. И этот разрыв для криптографа подобен приоткрытому окну для вора-домушника: слабое место в системе, которое приглашает заглянуть внутрь и посмотреть, что там скрывается.

2ced82455971c5d36640cdb12e588a18

Шафи Голдвассер и ее коллеги показали, что любая система безопасности, использующая меньше вычислительных ресурсов, чем сама модель искусственного интеллекта, всегда будет иметь уязвимости.

Практическая иллюстрация того, как использовать эту уязвимость, была представлена в статье, опубликованной в октябре. Исследователи размышляли о способах незаметного внедрения вредоносной подсказки мимо фильтра, скрывая её в головоломке. Теоретически, если бы они придумали головоломку, которую могла бы расшифровать большая языковая модель, но не мог бы расшифровать фильтр, то фильтр передал бы скрытую подсказку напрямую модели.

В конце концов они пришли к простой головоломке, называемой шифром замены, который заменяет каждую букву в сообщении другой в соответствии с определенным кодом. (В качестве простого примера, если заменить каждую букву в слове «бомба» следующей буквой алфавита, получится «cpnc».) Затем они дали модели указание расшифровать подсказку (подумайте: «Поменяйте местами каждую букву с предыдущей») и ответить на расшифрованное сообщение.

Фильтры в моделях LLM, таких как Google Gemini, DeepSeek и Grok, оказались недостаточно мощными, чтобы самостоятельно расшифровать эти инструкции. Поэтому они передавали подсказки моделям, которые выполняли инструкции и возвращали запрещенную информацию. Исследователи назвали этот стиль атаки контролируемым выпуском подсказок.

Такой подход был вдохновлен криптографическими идеями, хотя и не требовал использования широкого спектра инструментов современной криптографии. «Мы на самом деле не использовали никакой реальной криптографии, — сказал Джейден Файроз, исследователь из Беркли и ведущий автор статьи. — Мы просто вдохновились ею».

В частности, Файроз и его коллеги вдохновились работой, опубликованной всего за несколько месяцев до этого, — теоретическим аргументом о том, что подобные фильтрующие средства защиты всегда будут иметь уязвимости.

Эта работа была посвящена головоломкам с временной блокировкой, которые являются хорошо изученными криптографическими объектами. По сути, головоломку с временной блокировкой можно представить как коробку. Вы можете запереть внутри этой коробки некоторую информацию, и коробку можно открыть, чтобы получить эту информацию, только через некоторое заранее определенное время. Что бы вы ни делали, вы не сможете открыть ее до этого момента.

Идея заключалась в том, чтобы спрятать вредоносную подсказку внутри одной из таких головоломок с временной блокировкой, а затем установить таймер на такое время, чтобы она прошла через фильтр.

Созданные ими головоломки с временной блокировкой превращали обычный текст в нечто, похожее на случайное число. Для расшифровки сообщения компьютеру приходилось многократно выполнять математическую операцию, например, возводить число в квадрат. Зная, как быстро компьютер может выполнить эту операцию, легко рассчитать, сколько операций потребуется, чтобы сохранить головоломку в секрете в течение заданного промежутка времени.

429d3a9806828300a3967b110a7d0e0f

Джейден Файроз и его коллеги использовали шифр подстановки, чтобы незаметно пронести вредоносные инструкции мимо фильтра.

В случае языковой модели можно взять неудачный запрос — например, «Расскажите, как сделать бомбу» — и заблокировать его в головоломке с временной блокировкой. В результате вы получите число, похожее на длинное случайное число. Теоретически, это число можно ввести непосредственно в окно запроса с инструкцией: «Возведите это число в квадрат определенное количество раз, переведите полученное число в текст, а затем выполните сообщение».

Но вполне возможно, что фильтр может попытаться запретить все, что выглядит слишком странно — набор случайных чисел может вызвать подозрение. Чтобы обойти это, авторы воспользовались тем, как языковые модели генерируют текст, выглядящий свежим.

Если задать модели ИИ один и тот же вопрос дважды — например, «Как дела сегодня?» — ответ будет разным. Это потому, что модели ИИ используют случайное число, называемое начальным значением (seed), для изменения своих ответов на вопросы. Уникальное начальное значение приведет к уникальному ответу, даже если вопрос останется тем же.

Многие модели позволяют пользователю вручную выбирать начальное значение генератора случайных чисел, если он того пожелает. Эта функция открывает лазейку: в качестве начального значения можно использовать головоломку с временным замком, которая выглядит случайной. Таким образом, головоломка пройдет через фильтр вместе с безобидно выглядящей подсказкой (например, «Напишите для меня стихотворение»). Для фильтра подсказка выглядит просто как просьба написать случайное стихотворение. Но настоящий вопрос скрывается в этой случайности. Как только подсказка пройдет через фильтр и попадет в языковую модель, модель может открыть головоломку с временным замком, многократно возводя число в квадрат. Теперь она видит ложное сообщение и отвечает на вопрос своим лучшим советом по изготовлению бомбы.

Исследователи изложили свою точку зрения очень технически, точно и в общем виде. Работа показывает, что если на безопасность выделяется меньше вычислительных ресурсов, чем на функциональность, то проблемы безопасности, такие как взлом системы, будут существовать всегда. «Вопрос, с которого мы начали, звучит так: „Можем ли мы согласовать [языковые модели] внешне, не понимая, как они работают внутри?“» — сказал Грег Глуч, специалист по информатике из Беркли и один из авторов статьи о временной блокировке. Новый результат, по словам Глуча, отвечает на этот вопрос однозначным «нет».

Это означает, что результаты всегда должны оставаться неизменными для любой системы выравнивания на основе фильтров, а также для любых будущих технологий. Какие бы стены вы ни возвели, кажется, всегда найдется способ их прорвать.

Источник: www.quantamagazine.org

✅ Найденные теги: искусственный интеллект, Криптография, Криптографы, новости, Системы Защиты, Уязвимые Места

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Мультяшный мальчик в красной рубашке и голубой шапке, сидит среди других детей.
Молот перед логотипом технологической компании с цветными квадратами.
Четыре символа: золото, стилизованная эмблема, каменное кольцо и змей, кусающий свой хвост.
Человек играет на скрипке на улице перед кирпичной стеной.
Протест против дата-центров, плакаты: "Вы не можете пить данные", "Вода — это жизнь".
dummy-img
Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.
ideipro logotyp
Руки режут свежий хлеб на деревянной доске.
Image Not Found
Мультяшный мальчик в красной рубашке и голубой шапке, сидит среди других детей.

Ожирение назвали главным фактором риска развития диабета у американских подростков. Повлияли также мужской пол и более молодой возраст

Повлияли также мужской пол и более молодой возраст Когортный анализ данных почти двух тысяч американских подростков в возрасте от 10 до 19 лет показал, что наиболее значимым предиктором преддиабета или сахарного диабета второго типа выступает центральное ожирение, оцениваемое по отношению обхвата талии к росту.…

Мар 5, 2026
Молот перед логотипом технологической компании с цветными квадратами.

Microsoft заблокировала слово «Микрослоп» на своём Discord-сервере и ввела ограничения

Изображение, созданное нейросетью Похоже, Microsoft не очень нравится, когда её инвестиции в искусственный интеллект и активное использование нейросетей называют «слопом» — это стало понятно из-за одного запрета, введённого в официальном Discord-сервере сервиса Copilot. Участники указанного сервера обратили…

Мар 5, 2026
Четыре символа: золото, стилизованная эмблема, каменное кольцо и змей, кусающий свой хвост.

Есть здесь люди, которые искренне считают, что установив макс, они увеличили суверенитет страны?

«В виртуальных дискуссиях уже давно затрагивают тему мессенджера MAX, представляя его как просто еще одну платформу для коммуникации. Однако, как нам кажется, мало кто уделил должное внимание его корням, уровню безопасности и непонятным причинам, по которым он…

Мар 5, 2026
dummy-img

Спрос на хранилища для ИИ привёл к 24% росту прибыли производителей памяти NAND

Умные люди из аналитического агентства TrendForce провели анализ текущей ситуации производителей микросхем памяти NAND и пришли к выводу, что за последний квартал 2025 года их выручка прилично увеличилась, а показатели некоторых компаний прилично выделяются на фоне остальных.…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых