Скриншот переписки по электронной почте на тему ланча и настройки безопасности.

Компания OpenAI признает риск атак с внедрением подсказок для ИИ-агентов в открытых браузерах

Дек 23, 2025 0

cb39cf28c76b0b1b1b15ecd0b628812d — **Источник изображений:** OpenAI

Несмотря на то, что OpenAI работает над повышением защиты своего браузера Atlas AI от кибератак, компания признает, что «быстрые инъекции» — тип атаки, при котором ИИ-агенты вынуждены следовать вредоносным инструкциям, часто скрытым на веб-страницах или в электронных письмах, — представляют собой риск, который в ближайшее время не исчезнет, что поднимает вопросы о том, насколько безопасно ИИ-агенты могут работать в открытом интернете.

«Проблема быстрого внедрения вредоносного ПО, как и мошенничество и социальная инженерия в интернете, вряд ли когда-либо будет полностью „решена“», — написала компания OpenAI в понедельник в своем блоге, подробно описывая, как она усиливает защиту Atlas для борьбы с непрекращающимися атаками. Компания признала, что «режим агента» в ChatGPT Atlas «расширяет поверхность угроз безопасности».

В октябре OpenAI запустила свой браузер ChatGPT Atlas, и исследователи безопасности поспешили опубликовать свои демонстрации, показав, что можно написать несколько слов в Google Docs, способных изменить поведение самого браузера. В тот же день Brave опубликовала сообщение в блоге, объясняющее, что непрямая инъекция подсказок является системной проблемой для браузеров, использующих искусственный интеллект, включая Comet от Perplexity.

OpenAI не единственная компания, признающая, что инъекции с использованием подсказок никуда не денутся. Национальный центр кибербезопасности Великобритании в начале этого месяца предупредил, что атаки с использованием подсказок против приложений генеративного ИИ «возможно, никогда не будут полностью предотвращены», что ставит веб-сайты под угрозу утечки данных. Британское правительственное агентство посоветовало специалистам по кибербезопасности снизить риск и последствия инъекций с использованием подсказок, а не считать, что эти атаки можно «остановить».

В OpenAI заявили: «Мы рассматриваем внедрение вредоносного кода как долгосрочную проблему безопасности ИИ, и нам необходимо постоянно укреплять нашу защиту от него».

Ответ компании на эту сизифову задачу? Проактивный цикл быстрого реагирования, который, по словам фирмы, демонстрирует многообещающие результаты в выявлении новых стратегий атак внутри компании до того, как они будут использованы «в реальных условиях».

Это не сильно отличается от того, что говорят конкуренты, такие как Anthropic и Google: для борьбы с постоянным риском атак, основанных на подсказках, защита должна быть многоуровневой и постоянно подвергаться стресс-тестированию. Например, недавние работы Google сосредоточены на архитектурных и политических средствах контроля для агентных систем.

Однако OpenAI использует другой подход в своей «автоматизированной атаке на основе LLM». Эта атака представляет собой, по сути, бота, которого OpenAI обучила с помощью обучения с подкреплением играть роль хакера, ищущего способы незаметно передать вредоносные инструкции агенту ИИ.

Бот может протестировать атаку в симуляции, прежде чем использовать её в реальных условиях, и симулятор показывает, как бы мыслил целевой ИИ и какие действия он предпринял, если бы увидел атаку. Затем бот может изучить эту реакцию, скорректировать атаку и повторять попытки снова и снова. Такое понимание внутренних рассуждений целевого ИИ недоступно посторонним, поэтому теоретически бот OpenAI должен находить уязвимости быстрее, чем реальный злоумышленник.

Это распространённая тактика в тестировании безопасности ИИ: создать агента для выявления граничных случаев и быстро провести тестирование в симуляции.

«Наш [обученный с помощью обучения с подкреплением] злоумышленник может направлять агента на выполнение сложных, долгосрочных вредоносных действий, которые разворачиваются в течение десятков (или даже сотен) шагов», — написала компания OpenAI. «Мы также наблюдали новые стратегии атак, которые не были описаны в ходе нашей кампании по проверке на проникновение или во внешних отчетах».

Скриншот, демонстрирующий атаку с внедрением подсказки в браузере OpenAI. — **Источник изображений:** OpenAI

В демонстрации (часть изображения приведена выше) компания OpenAI показала, как её автоматизированный злоумышленник подбросил вредоносное электронное письмо в почтовый ящик пользователя. Когда ИИ-агент позже просканировал почтовый ящик, он, следуя скрытым инструкциям в письме, отправил сообщение об увольнении вместо автоматического ответа об отсутствии на рабочем месте. Однако, по словам компании, после обновления безопасности «режим агента» смог успешно обнаружить попытку внедрения подсказки и сообщить о ней пользователю.

Компания заявляет, что, хотя от быстрой инъекции сложно обеспечить надежную защиту, она полагается на масштабное тестирование и более быстрые циклы обновления, чтобы укрепить свои системы до того, как они проявятся в реальных атаках.

Представитель OpenAI отказался сообщить, привело ли обновление системы безопасности Atlas к заметному снижению числа успешных инъекций, но заявил, что компания работала с третьими сторонами над повышением защиты Atlas от мгновенных инъекций еще до запуска.

Рами Маккарти, ведущий исследователь в области кибербезопасности в компании Wiz, утверждает, что обучение с подкреплением — это один из способов непрерывной адаптации к поведению злоумышленников, но это лишь часть картины.

«Полезный способ рассуждать о рисках в системах искусственного интеллекта — это умножение автономности на уровень доступа», — сказал Маккарти в интервью TechCrunch.

«Веб-браузеры, использующие агентские методы, как правило, находятся в непростом положении: умеренная автономность в сочетании с очень высоким уровнем доступа», — сказал Маккарти. «Многие текущие рекомендации отражают этот компромисс. Ограничение доступа для авторизованных пользователей в первую очередь снижает риски, в то время как требование проверки запросов на подтверждение ограничивает автономность».

Это две из рекомендаций OpenAI для пользователей по снижению собственных рисков, и представитель компании заявил, что Atlas также обучен получать подтверждение от пользователя перед отправкой сообщений или совершением платежей. OpenAI также предлагает пользователям давать агентам конкретные инструкции, а не предоставлять им доступ к своей почте и говорить им «предпринимать необходимые действия».

«Широкая свобода действий облегчает скрытому или вредоносному контенту воздействие на агента, даже при наличии мер защиты», — сообщает OpenAI.

Хотя OpenAI заявляет, что защита пользователей Atlas от внедрения вредоносного ПО является первоочередной задачей, Маккарти выражает некоторый скептицизм относительно окупаемости инвестиций для браузеров, подверженных риску.

«В большинстве повседневных сценариев использования браузеры с агентным управлением пока не приносят достаточно пользы, чтобы оправдать свой текущий профиль рисков», — сказал Маккарти в интервью TechCrunch. «Риск высок, учитывая их доступ к конфиденциальным данным, таким как электронная почта и платежная информация, хотя именно этот доступ и делает их мощными. Этот баланс будет меняться, но сегодня компромиссы по-прежнему очень существенны».

Источник: techcrunch.com

Метки:

Лого Google в цветах радуги на фоне зелёных растений.

ПРЕДЫДУЩАЯ ЗАПИСЬ

23.12.2025

Компания Alphabet приобретет Intersect Power для решения проблем с перегрузками энергосети.

СЛЕДУЮЩАЯ ЗАПИСЬ

23.12.2025

10 возможностей сервиса Perplexity

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

ЧИТАТЬ

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Компания OpenAI признает риск атак с внедрением подсказок для ИИ-агентов в открытых браузерах

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в