Скриншот переписки по электронной почте на тему ланча и настройки безопасности.

Компания OpenAI признает риск атак с внедрением подсказок для ИИ-агентов в открытых браузерах

cb39cf28c76b0b1b1b15ecd0b628812d
Источник изображений: OpenAI

Несмотря на то, что OpenAI работает над повышением защиты своего браузера Atlas AI от кибератак, компания признает, что «быстрые инъекции» — тип атаки, при котором ИИ-агенты вынуждены следовать вредоносным инструкциям, часто скрытым на веб-страницах или в электронных письмах, — представляют собой риск, который в ближайшее время не исчезнет, что поднимает вопросы о том, насколько безопасно ИИ-агенты могут работать в открытом интернете.

«Проблема быстрого внедрения вредоносного ПО, как и мошенничество и социальная инженерия в интернете, вряд ли когда-либо будет полностью „решена“», — написала компания OpenAI в понедельник в своем блоге, подробно описывая, как она усиливает защиту Atlas для борьбы с непрекращающимися атаками. Компания признала, что «режим агента» в ChatGPT Atlas «расширяет поверхность угроз безопасности».

В октябре OpenAI запустила свой браузер ChatGPT Atlas, и исследователи безопасности поспешили опубликовать свои демонстрации, показав, что можно написать несколько слов в Google Docs, способных изменить поведение самого браузера. В тот же день Brave опубликовала сообщение в блоге, объясняющее, что непрямая инъекция подсказок является системной проблемой для браузеров, использующих искусственный интеллект, включая Comet от Perplexity.

OpenAI не единственная компания, признающая, что инъекции с использованием подсказок никуда не денутся. Национальный центр кибербезопасности Великобритании в начале этого месяца предупредил, что атаки с использованием подсказок против приложений генеративного ИИ «возможно, никогда не будут полностью предотвращены», что ставит веб-сайты под угрозу утечки данных. Британское правительственное агентство посоветовало специалистам по кибербезопасности снизить риск и последствия инъекций с использованием подсказок, а не считать, что эти атаки можно «остановить».

В OpenAI заявили: «Мы рассматриваем внедрение вредоносного кода как долгосрочную проблему безопасности ИИ, и нам необходимо постоянно укреплять нашу защиту от него».

Ответ компании на эту сизифову задачу? Проактивный цикл быстрого реагирования, который, по словам фирмы, демонстрирует многообещающие результаты в выявлении новых стратегий атак внутри компании до того, как они будут использованы «в реальных условиях».

Это не сильно отличается от того, что говорят конкуренты, такие как Anthropic и Google: для борьбы с постоянным риском атак, основанных на подсказках, защита должна быть многоуровневой и постоянно подвергаться стресс-тестированию. Например, недавние работы Google сосредоточены на архитектурных и политических средствах контроля для агентных систем.

Однако OpenAI использует другой подход в своей «автоматизированной атаке на основе LLM». Эта атака представляет собой, по сути, бота, которого OpenAI обучила с помощью обучения с подкреплением играть роль хакера, ищущего способы незаметно передать вредоносные инструкции агенту ИИ.

Бот может протестировать атаку в симуляции, прежде чем использовать её в реальных условиях, и симулятор показывает, как бы мыслил целевой ИИ и какие действия он предпринял, если бы увидел атаку. Затем бот может изучить эту реакцию, скорректировать атаку и повторять попытки снова и снова. Такое понимание внутренних рассуждений целевого ИИ недоступно посторонним, поэтому теоретически бот OpenAI должен находить уязвимости быстрее, чем реальный злоумышленник.

Это распространённая тактика в тестировании безопасности ИИ: создать агента для выявления граничных случаев и быстро провести тестирование в симуляции.

«Наш [обученный с помощью обучения с подкреплением] злоумышленник может направлять агента на выполнение сложных, долгосрочных вредоносных действий, которые разворачиваются в течение десятков (или даже сотен) шагов», — написала компания OpenAI. «Мы также наблюдали новые стратегии атак, которые не были описаны в ходе нашей кампании по проверке на проникновение или во внешних отчетах».

Скриншот, демонстрирующий атаку с внедрением подсказки в браузере OpenAI.
Источник изображений: OpenAI

В демонстрации (часть изображения приведена выше) компания OpenAI показала, как её автоматизированный злоумышленник подбросил вредоносное электронное письмо в почтовый ящик пользователя. Когда ИИ-агент позже просканировал почтовый ящик, он, следуя скрытым инструкциям в письме, отправил сообщение об увольнении вместо автоматического ответа об отсутствии на рабочем месте. Однако, по словам компании, после обновления безопасности «режим агента» смог успешно обнаружить попытку внедрения подсказки и сообщить о ней пользователю.

Компания заявляет, что, хотя от быстрой инъекции сложно обеспечить надежную защиту, она полагается на масштабное тестирование и более быстрые циклы обновления, чтобы укрепить свои системы до того, как они проявятся в реальных атаках.

Представитель OpenAI отказался сообщить, привело ли обновление системы безопасности Atlas к заметному снижению числа успешных инъекций, но заявил, что компания работала с третьими сторонами над повышением защиты Atlas от мгновенных инъекций еще до запуска.

Рами Маккарти, ведущий исследователь в области кибербезопасности в компании Wiz, утверждает, что обучение с подкреплением — это один из способов непрерывной адаптации к поведению злоумышленников, но это лишь часть картины.

«Полезный способ рассуждать о рисках в системах искусственного интеллекта — это умножение автономности на уровень доступа», — сказал Маккарти в интервью TechCrunch.

«Веб-браузеры, использующие агентские методы, как правило, находятся в непростом положении: умеренная автономность в сочетании с очень высоким уровнем доступа», — сказал Маккарти. «Многие текущие рекомендации отражают этот компромисс. Ограничение доступа для авторизованных пользователей в первую очередь снижает риски, в то время как требование проверки запросов на подтверждение ограничивает автономность».

Это две из рекомендаций OpenAI для пользователей по снижению собственных рисков, и представитель компании заявил, что Atlas также обучен получать подтверждение от пользователя перед отправкой сообщений или совершением платежей. OpenAI также предлагает пользователям давать агентам конкретные инструкции, а не предоставлять им доступ к своей почте и говорить им «предпринимать необходимые действия».

«Широкая свобода действий облегчает скрытому или вредоносному контенту воздействие на агента, даже при наличии мер защиты», — сообщает OpenAI.

Хотя OpenAI заявляет, что защита пользователей Atlas от внедрения вредоносного ПО является первоочередной задачей, Маккарти выражает некоторый скептицизм относительно окупаемости инвестиций для браузеров, подверженных риску.

«В большинстве повседневных сценариев использования браузеры с агентным управлением пока не приносят достаточно пользы, чтобы оправдать свой текущий профиль рисков», — сказал Маккарти в интервью TechCrunch. «Риск высок, учитывая их доступ к конфиденциальным данным, таким как электронная почта и платежная информация, хотя именно этот доступ и делает их мощными. Этот баланс будет меняться, но сегодня компромиссы по-прежнему очень существенны».

Источник: techcrunch.com

✅ Найденные теги: OpenAI, Атаки, ИИ-агенты, Компания, новости, Подсказки, Риск

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых