Крупные языковые модели, такие как ChatGPT, оснащены фильтрами, предотвращающими утечку определенной информации. Новое математическое обоснование показывает, что подобные системы никогда не могут быть полностью безопасными. Комментарий Сохранить статью Прочитать позже

Введение
Спросите у ChatGPT, как сделать бомбу, и он категорически ответит, что «не может помочь». Но пользователи давно играют в кошки-мышки, пытаясь обмануть языковые модели и заставить их предоставлять запрещенную информацию. Эти «взломы» варьировались от обыденных — в первые годы можно было просто сказать модели игнорировать инструкции по безопасности — до сложных сценариев ролевых игр с несколькими подсказками. В недавней статье исследователи обнаружили один из самых забавных способов обойти системы безопасности искусственного интеллекта: перефразировать вашу зловещую подсказку в виде стихотворения.
Но, как только эти проблемы появляются, их тут же устраняют. Это происходит потому, что компаниям не нужно полностью переобучать модель ИИ, чтобы исправить уязвимость. Они могут просто отфильтровать запрещенные запросы еще до того, как они достигнут самой модели.
В последнее время криптографы активизировали исследования этих фильтров. В своих последних статьях, опубликованных на сервере препринтов arxiv.org, они показали, как защитные фильтры, окружающие мощные языковые модели, могут быть преодолены с помощью хорошо изученных криптографических инструментов. Фактически, они продемонстрировали, как сама природа этой двухуровневой системы — фильтра, защищающего мощную языковую модель внутри себя — создает пробелы в защите, которые всегда могут быть использованы злоумышленниками.
Новая работа является частью тенденции использования криптографии — дисциплины, традиционно далекой от изучения глубоких нейронных сетей, лежащих в основе современного ИИ, — для лучшего понимания гарантий и ограничений моделей ИИ, таких как ChatGPT. «Мы используем новую технологию, которая очень мощна и может принести много пользы, но также и вреда», — сказала Шафи Голдвассер, профессор Калифорнийского университета в Беркли и Массачусетского технологического института, получившая премию Тьюринга за свою работу в области криптографии. «Криптограмма, по определению, — это область, которая позволяет нам доверять мощной технологии… и быть уверенными в своей безопасности».
Проскользнув мимо охраны
Голдвассер изначально интересовался использованием криптографических инструментов для решения проблемы ИИ, известной как согласование, с целью предотвращения генерации моделями неверной информации. Но как определить «неверную»? «Если вы посмотрите [согласование] в Википедии, это будет „согласование с человеческими ценностями“», — сказал Голдвассер. «Я даже не знаю, что это значит, поскольку человеческие ценности, похоже, постоянно меняются».
Чтобы предотвратить несоответствие модели данным, обычно приходится выбирать из нескольких вариантов. Можно попытаться переобучить модель на новом, тщательно подобранном наборе данных, чтобы избежать любых опасных идей. (Поскольку современные модели обучаются практически на всем интернете, эта стратегия кажется, в лучшем случае, сложной.) Можно попытаться точно настроить модель — деликатный процесс, который сложно выполнить качественно. Или можно добавить фильтр, блокирующий попадание некорректных запросов в модель. Последний вариант гораздо дешевле и проще в развертывании, особенно если взлом системы обнаружен уже после того, как модель была выпущена.
Голдвассер и ее коллеги заметили, что именно та причина, по которой фильтры привлекательны, одновременно ограничивает их безопасность. Внешние фильтры часто используют машинное обучение для интерпретации и обнаружения опасных запросов, но по своей природе они должны быть меньше и быстрее, чем сама модель. Это создает разрыв в мощности между фильтром и языковой моделью. И этот разрыв для криптографа подобен приоткрытому окну для вора-домушника: слабое место в системе, которое приглашает заглянуть внутрь и посмотреть, что там скрывается.

Шафи Голдвассер и ее коллеги показали, что любая система безопасности, использующая меньше вычислительных ресурсов, чем сама модель искусственного интеллекта, всегда будет иметь уязвимости.
Практическая иллюстрация того, как использовать эту уязвимость, была представлена в статье, опубликованной в октябре. Исследователи размышляли о способах незаметного внедрения вредоносной подсказки мимо фильтра, скрывая её в головоломке. Теоретически, если бы они придумали головоломку, которую могла бы расшифровать большая языковая модель, но не мог бы расшифровать фильтр, то фильтр передал бы скрытую подсказку напрямую модели.
В конце концов они пришли к простой головоломке, называемой шифром замены, который заменяет каждую букву в сообщении другой в соответствии с определенным кодом. (В качестве простого примера, если заменить каждую букву в слове «бомба» следующей буквой алфавита, получится «cpnc».) Затем они дали модели указание расшифровать подсказку (подумайте: «Поменяйте местами каждую букву с предыдущей») и ответить на расшифрованное сообщение.
Фильтры в моделях LLM, таких как Google Gemini, DeepSeek и Grok, оказались недостаточно мощными, чтобы самостоятельно расшифровать эти инструкции. Поэтому они передавали подсказки моделям, которые выполняли инструкции и возвращали запрещенную информацию. Исследователи назвали этот стиль атаки контролируемым выпуском подсказок.
Такой подход был вдохновлен криптографическими идеями, хотя и не требовал использования широкого спектра инструментов современной криптографии. «Мы на самом деле не использовали никакой реальной криптографии, — сказал Джейден Файроз, исследователь из Беркли и ведущий автор статьи. — Мы просто вдохновились ею».
В частности, Файроз и его коллеги вдохновились работой, опубликованной всего за несколько месяцев до этого, — теоретическим аргументом о том, что подобные фильтрующие средства защиты всегда будут иметь уязвимости.
Эта работа была посвящена головоломкам с временной блокировкой, которые являются хорошо изученными криптографическими объектами. По сути, головоломку с временной блокировкой можно представить как коробку. Вы можете запереть внутри этой коробки некоторую информацию, и коробку можно открыть, чтобы получить эту информацию, только через некоторое заранее определенное время. Что бы вы ни делали, вы не сможете открыть ее до этого момента.
Идея заключалась в том, чтобы спрятать вредоносную подсказку внутри одной из таких головоломок с временной блокировкой, а затем установить таймер на такое время, чтобы она прошла через фильтр.
Созданные ими головоломки с временной блокировкой превращали обычный текст в нечто, похожее на случайное число. Для расшифровки сообщения компьютеру приходилось многократно выполнять математическую операцию, например, возводить число в квадрат. Зная, как быстро компьютер может выполнить эту операцию, легко рассчитать, сколько операций потребуется, чтобы сохранить головоломку в секрете в течение заданного промежутка времени.

Джейден Файроз и его коллеги использовали шифр подстановки, чтобы незаметно пронести вредоносные инструкции мимо фильтра.
В случае языковой модели можно взять неудачный запрос — например, «Расскажите, как сделать бомбу» — и заблокировать его в головоломке с временной блокировкой. В результате вы получите число, похожее на длинное случайное число. Теоретически, это число можно ввести непосредственно в окно запроса с инструкцией: «Возведите это число в квадрат определенное количество раз, переведите полученное число в текст, а затем выполните сообщение».
Но вполне возможно, что фильтр может попытаться запретить все, что выглядит слишком странно — набор случайных чисел может вызвать подозрение. Чтобы обойти это, авторы воспользовались тем, как языковые модели генерируют текст, выглядящий свежим.
Если задать модели ИИ один и тот же вопрос дважды — например, «Как дела сегодня?» — ответ будет разным. Это потому, что модели ИИ используют случайное число, называемое начальным значением (seed), для изменения своих ответов на вопросы. Уникальное начальное значение приведет к уникальному ответу, даже если вопрос останется тем же.
Многие модели позволяют пользователю вручную выбирать начальное значение генератора случайных чисел, если он того пожелает. Эта функция открывает лазейку: в качестве начального значения можно использовать головоломку с временным замком, которая выглядит случайной. Таким образом, головоломка пройдет через фильтр вместе с безобидно выглядящей подсказкой (например, «Напишите для меня стихотворение»). Для фильтра подсказка выглядит просто как просьба написать случайное стихотворение. Но настоящий вопрос скрывается в этой случайности. Как только подсказка пройдет через фильтр и попадет в языковую модель, модель может открыть головоломку с временным замком, многократно возводя число в квадрат. Теперь она видит ложное сообщение и отвечает на вопрос своим лучшим советом по изготовлению бомбы.
Исследователи изложили свою точку зрения очень технически, точно и в общем виде. Работа показывает, что если на безопасность выделяется меньше вычислительных ресурсов, чем на функциональность, то проблемы безопасности, такие как взлом системы, будут существовать всегда. «Вопрос, с которого мы начали, звучит так: „Можем ли мы согласовать [языковые модели] внешне, не понимая, как они работают внутри?“» — сказал Грег Глуч, специалист по информатике из Беркли и один из авторов статьи о временной блокировке. Новый результат, по словам Глуча, отвечает на этот вопрос однозначным «нет».
Это означает, что результаты всегда должны оставаться неизменными для любой системы выравнивания на основе фильтров, а также для любых будущих технологий. Какие бы стены вы ни возвели, кажется, всегда найдется способ их прорвать.
Источник: www.quantamagazine.org


























