
Несмотря на то, что OpenAI работает над повышением защиты своего браузера Atlas AI от кибератак, компания признает, что «быстрые инъекции» — тип атаки, при котором ИИ-агенты вынуждены следовать вредоносным инструкциям, часто скрытым на веб-страницах или в электронных письмах, — представляют собой риск, который в ближайшее время не исчезнет, что поднимает вопросы о том, насколько безопасно ИИ-агенты могут работать в открытом интернете.
«Проблема быстрого внедрения вредоносного ПО, как и мошенничество и социальная инженерия в интернете, вряд ли когда-либо будет полностью „решена“», — написала компания OpenAI в понедельник в своем блоге, подробно описывая, как она усиливает защиту Atlas для борьбы с непрекращающимися атаками. Компания признала, что «режим агента» в ChatGPT Atlas «расширяет поверхность угроз безопасности».
В октябре OpenAI запустила свой браузер ChatGPT Atlas, и исследователи безопасности поспешили опубликовать свои демонстрации, показав, что можно написать несколько слов в Google Docs, способных изменить поведение самого браузера. В тот же день Brave опубликовала сообщение в блоге, объясняющее, что непрямая инъекция подсказок является системной проблемой для браузеров, использующих искусственный интеллект, включая Comet от Perplexity.
OpenAI не единственная компания, признающая, что инъекции с использованием подсказок никуда не денутся. Национальный центр кибербезопасности Великобритании в начале этого месяца предупредил, что атаки с использованием подсказок против приложений генеративного ИИ «возможно, никогда не будут полностью предотвращены», что ставит веб-сайты под угрозу утечки данных. Британское правительственное агентство посоветовало специалистам по кибербезопасности снизить риск и последствия инъекций с использованием подсказок, а не считать, что эти атаки можно «остановить».
В OpenAI заявили: «Мы рассматриваем внедрение вредоносного кода как долгосрочную проблему безопасности ИИ, и нам необходимо постоянно укреплять нашу защиту от него».
Ответ компании на эту сизифову задачу? Проактивный цикл быстрого реагирования, который, по словам фирмы, демонстрирует многообещающие результаты в выявлении новых стратегий атак внутри компании до того, как они будут использованы «в реальных условиях».
Это не сильно отличается от того, что говорят конкуренты, такие как Anthropic и Google: для борьбы с постоянным риском атак, основанных на подсказках, защита должна быть многоуровневой и постоянно подвергаться стресс-тестированию. Например, недавние работы Google сосредоточены на архитектурных и политических средствах контроля для агентных систем.
Однако OpenAI использует другой подход в своей «автоматизированной атаке на основе LLM». Эта атака представляет собой, по сути, бота, которого OpenAI обучила с помощью обучения с подкреплением играть роль хакера, ищущего способы незаметно передать вредоносные инструкции агенту ИИ.
Бот может протестировать атаку в симуляции, прежде чем использовать её в реальных условиях, и симулятор показывает, как бы мыслил целевой ИИ и какие действия он предпринял, если бы увидел атаку. Затем бот может изучить эту реакцию, скорректировать атаку и повторять попытки снова и снова. Такое понимание внутренних рассуждений целевого ИИ недоступно посторонним, поэтому теоретически бот OpenAI должен находить уязвимости быстрее, чем реальный злоумышленник.
Это распространённая тактика в тестировании безопасности ИИ: создать агента для выявления граничных случаев и быстро провести тестирование в симуляции.
«Наш [обученный с помощью обучения с подкреплением] злоумышленник может направлять агента на выполнение сложных, долгосрочных вредоносных действий, которые разворачиваются в течение десятков (или даже сотен) шагов», — написала компания OpenAI. «Мы также наблюдали новые стратегии атак, которые не были описаны в ходе нашей кампании по проверке на проникновение или во внешних отчетах».

В демонстрации (часть изображения приведена выше) компания OpenAI показала, как её автоматизированный злоумышленник подбросил вредоносное электронное письмо в почтовый ящик пользователя. Когда ИИ-агент позже просканировал почтовый ящик, он, следуя скрытым инструкциям в письме, отправил сообщение об увольнении вместо автоматического ответа об отсутствии на рабочем месте. Однако, по словам компании, после обновления безопасности «режим агента» смог успешно обнаружить попытку внедрения подсказки и сообщить о ней пользователю.
Компания заявляет, что, хотя от быстрой инъекции сложно обеспечить надежную защиту, она полагается на масштабное тестирование и более быстрые циклы обновления, чтобы укрепить свои системы до того, как они проявятся в реальных атаках.
Представитель OpenAI отказался сообщить, привело ли обновление системы безопасности Atlas к заметному снижению числа успешных инъекций, но заявил, что компания работала с третьими сторонами над повышением защиты Atlas от мгновенных инъекций еще до запуска.
Рами Маккарти, ведущий исследователь в области кибербезопасности в компании Wiz, утверждает, что обучение с подкреплением — это один из способов непрерывной адаптации к поведению злоумышленников, но это лишь часть картины.
«Полезный способ рассуждать о рисках в системах искусственного интеллекта — это умножение автономности на уровень доступа», — сказал Маккарти в интервью TechCrunch.
«Веб-браузеры, использующие агентские методы, как правило, находятся в непростом положении: умеренная автономность в сочетании с очень высоким уровнем доступа», — сказал Маккарти. «Многие текущие рекомендации отражают этот компромисс. Ограничение доступа для авторизованных пользователей в первую очередь снижает риски, в то время как требование проверки запросов на подтверждение ограничивает автономность».
Это две из рекомендаций OpenAI для пользователей по снижению собственных рисков, и представитель компании заявил, что Atlas также обучен получать подтверждение от пользователя перед отправкой сообщений или совершением платежей. OpenAI также предлагает пользователям давать агентам конкретные инструкции, а не предоставлять им доступ к своей почте и говорить им «предпринимать необходимые действия».
«Широкая свобода действий облегчает скрытому или вредоносному контенту воздействие на агента, даже при наличии мер защиты», — сообщает OpenAI.
Хотя OpenAI заявляет, что защита пользователей Atlas от внедрения вредоносного ПО является первоочередной задачей, Маккарти выражает некоторый скептицизм относительно окупаемости инвестиций для браузеров, подверженных риску.
«В большинстве повседневных сценариев использования браузеры с агентным управлением пока не приносят достаточно пользы, чтобы оправдать свой текущий профиль рисков», — сказал Маккарти в интервью TechCrunch. «Риск высок, учитывая их доступ к конфиденциальным данным, таким как электронная почта и платежная информация, хотя именно этот доступ и делает их мощными. Этот баланс будет меняться, но сегодня компромиссы по-прежнему очень существенны».
Источник: techcrunch.com



























