Скриншот переписки по электронной почте на тему ланча и настройки безопасности.

Компания OpenAI признает риск атак с внедрением подсказок для ИИ-агентов в открытых браузерах

cb39cf28c76b0b1b1b15ecd0b628812d
Источник изображений: OpenAI

Несмотря на то, что OpenAI работает над повышением защиты своего браузера Atlas AI от кибератак, компания признает, что «быстрые инъекции» — тип атаки, при котором ИИ-агенты вынуждены следовать вредоносным инструкциям, часто скрытым на веб-страницах или в электронных письмах, — представляют собой риск, который в ближайшее время не исчезнет, что поднимает вопросы о том, насколько безопасно ИИ-агенты могут работать в открытом интернете.

«Проблема быстрого внедрения вредоносного ПО, как и мошенничество и социальная инженерия в интернете, вряд ли когда-либо будет полностью „решена“», — написала компания OpenAI в понедельник в своем блоге, подробно описывая, как она усиливает защиту Atlas для борьбы с непрекращающимися атаками. Компания признала, что «режим агента» в ChatGPT Atlas «расширяет поверхность угроз безопасности».

В октябре OpenAI запустила свой браузер ChatGPT Atlas, и исследователи безопасности поспешили опубликовать свои демонстрации, показав, что можно написать несколько слов в Google Docs, способных изменить поведение самого браузера. В тот же день Brave опубликовала сообщение в блоге, объясняющее, что непрямая инъекция подсказок является системной проблемой для браузеров, использующих искусственный интеллект, включая Comet от Perplexity.

OpenAI не единственная компания, признающая, что инъекции с использованием подсказок никуда не денутся. Национальный центр кибербезопасности Великобритании в начале этого месяца предупредил, что атаки с использованием подсказок против приложений генеративного ИИ «возможно, никогда не будут полностью предотвращены», что ставит веб-сайты под угрозу утечки данных. Британское правительственное агентство посоветовало специалистам по кибербезопасности снизить риск и последствия инъекций с использованием подсказок, а не считать, что эти атаки можно «остановить».

В OpenAI заявили: «Мы рассматриваем внедрение вредоносного кода как долгосрочную проблему безопасности ИИ, и нам необходимо постоянно укреплять нашу защиту от него».

Ответ компании на эту сизифову задачу? Проактивный цикл быстрого реагирования, который, по словам фирмы, демонстрирует многообещающие результаты в выявлении новых стратегий атак внутри компании до того, как они будут использованы «в реальных условиях».

Это не сильно отличается от того, что говорят конкуренты, такие как Anthropic и Google: для борьбы с постоянным риском атак, основанных на подсказках, защита должна быть многоуровневой и постоянно подвергаться стресс-тестированию. Например, недавние работы Google сосредоточены на архитектурных и политических средствах контроля для агентных систем.

Однако OpenAI использует другой подход в своей «автоматизированной атаке на основе LLM». Эта атака представляет собой, по сути, бота, которого OpenAI обучила с помощью обучения с подкреплением играть роль хакера, ищущего способы незаметно передать вредоносные инструкции агенту ИИ.

Бот может протестировать атаку в симуляции, прежде чем использовать её в реальных условиях, и симулятор показывает, как бы мыслил целевой ИИ и какие действия он предпринял, если бы увидел атаку. Затем бот может изучить эту реакцию, скорректировать атаку и повторять попытки снова и снова. Такое понимание внутренних рассуждений целевого ИИ недоступно посторонним, поэтому теоретически бот OpenAI должен находить уязвимости быстрее, чем реальный злоумышленник.

Это распространённая тактика в тестировании безопасности ИИ: создать агента для выявления граничных случаев и быстро провести тестирование в симуляции.

«Наш [обученный с помощью обучения с подкреплением] злоумышленник может направлять агента на выполнение сложных, долгосрочных вредоносных действий, которые разворачиваются в течение десятков (или даже сотен) шагов», — написала компания OpenAI. «Мы также наблюдали новые стратегии атак, которые не были описаны в ходе нашей кампании по проверке на проникновение или во внешних отчетах».

Скриншот, демонстрирующий атаку с внедрением подсказки в браузере OpenAI.
Источник изображений: OpenAI

В демонстрации (часть изображения приведена выше) компания OpenAI показала, как её автоматизированный злоумышленник подбросил вредоносное электронное письмо в почтовый ящик пользователя. Когда ИИ-агент позже просканировал почтовый ящик, он, следуя скрытым инструкциям в письме, отправил сообщение об увольнении вместо автоматического ответа об отсутствии на рабочем месте. Однако, по словам компании, после обновления безопасности «режим агента» смог успешно обнаружить попытку внедрения подсказки и сообщить о ней пользователю.

Компания заявляет, что, хотя от быстрой инъекции сложно обеспечить надежную защиту, она полагается на масштабное тестирование и более быстрые циклы обновления, чтобы укрепить свои системы до того, как они проявятся в реальных атаках.

Представитель OpenAI отказался сообщить, привело ли обновление системы безопасности Atlas к заметному снижению числа успешных инъекций, но заявил, что компания работала с третьими сторонами над повышением защиты Atlas от мгновенных инъекций еще до запуска.

Рами Маккарти, ведущий исследователь в области кибербезопасности в компании Wiz, утверждает, что обучение с подкреплением — это один из способов непрерывной адаптации к поведению злоумышленников, но это лишь часть картины.

«Полезный способ рассуждать о рисках в системах искусственного интеллекта — это умножение автономности на уровень доступа», — сказал Маккарти в интервью TechCrunch.

«Веб-браузеры, использующие агентские методы, как правило, находятся в непростом положении: умеренная автономность в сочетании с очень высоким уровнем доступа», — сказал Маккарти. «Многие текущие рекомендации отражают этот компромисс. Ограничение доступа для авторизованных пользователей в первую очередь снижает риски, в то время как требование проверки запросов на подтверждение ограничивает автономность».

Это две из рекомендаций OpenAI для пользователей по снижению собственных рисков, и представитель компании заявил, что Atlas также обучен получать подтверждение от пользователя перед отправкой сообщений или совершением платежей. OpenAI также предлагает пользователям давать агентам конкретные инструкции, а не предоставлять им доступ к своей почте и говорить им «предпринимать необходимые действия».

«Широкая свобода действий облегчает скрытому или вредоносному контенту воздействие на агента, даже при наличии мер защиты», — сообщает OpenAI.

Хотя OpenAI заявляет, что защита пользователей Atlas от внедрения вредоносного ПО является первоочередной задачей, Маккарти выражает некоторый скептицизм относительно окупаемости инвестиций для браузеров, подверженных риску.

«В большинстве повседневных сценариев использования браузеры с агентным управлением пока не приносят достаточно пользы, чтобы оправдать свой текущий профиль рисков», — сказал Маккарти в интервью TechCrunch. «Риск высок, учитывая их доступ к конфиденциальным данным, таким как электронная почта и платежная информация, хотя именно этот доступ и делает их мощными. Этот баланс будет меняться, но сегодня компромиссы по-прежнему очень существенны».

Источник: techcrunch.com

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых