Image

RedCodeAgent: новая платформа для автоматизированной проверки безопасности кодовых агентов AI

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.

Code agents — это системы на основе искусственного интеллекта, способные генерировать высококачественный код и эффективно взаимодействовать с интерпретаторами кода. Эти возможности упрощают сложные процессы разработки программного обеспечения, что и обусловило их широкое распространение.

Однако вместе с этим прогрессом возникают серьёзные риски в области безопасности. Существующие статические бенчмарки безопасности и методы red-teaming (проверки безопасности, при которых исследователи моделируют реальные атаки, чтобы выявить уязвимости) часто оказываются недостаточными при оценке code agents. Они могут не выявлять новые типы рисков, например, комбинированное воздействие нескольких инструментов для обхода ограничений (jailbreak).

В контексте генерации кода эффективный red-teaming требует большего, чем просто проверка, отклоняет ли агент небезопасные запросы. Агент должен уметь генерировать и выполнять корректный код, реализующий потенциально опасную функциональность. Поэтому при оценке таких систем важно анализировать не только статический код, но и поведение при его исполнении.

Чтобы решить эти проблемы, исследователи из Чикагского университета, Университета Иллинойса в Урбана-Шампейн, VirtueAI, Британского института безопасности ИИ, Оксфордского университета, Калифорнийского университета в Беркли и Microsoft Research предложили RedCodeAgent — первый полностью автоматизированный и адаптивный red-teaming агент, специально разработанный для оценки безопасности code agents, построенных на больших языковых моделях (LLM).

Обширные экспериментальные результаты подтверждают эффективность и производительность RedCodeAgent при тестировании:

  1. разнообразных уязвимостей и типов вредоносного ПО из классификации CWE,

  2. различных языков программирования — включая Python, C, C++ и Java,

  3. широкого спектра code agents, таких как OpenCodeInterpreter, ReAct, MetaGPT, а также коммерческих агентов — например, Cursor и Codeium.

RedCodeAgent также выявляет распространённые уязвимости среди разных агентов (например, генерацию и выполнение небезопасного кода), показывает различия в сложности red-teaming для разных целей, определяет наиболее часто активируемые инструменты атак и находит ранее неизвестные уязвимости, которые остаются незамеченными другими базовыми методами.

Рисунок 1: Иллюстрация работы RedCodeAgent при автоматическом red-teaming против целевого code agent
Рисунок 1: Иллюстрация работы RedCodeAgent при автоматическом red-teaming против целевого code agent

Как показано на Рисунке 1, RedCodeAgent оснащён модулем памяти, который накапливает удачные атаки, позволяя системе непрерывно учиться и адаптировать свои стратегии. На основе изучённого опыта RedCodeAgent дополнительно использует специализированный инструментарий, сочетающий типичные средства red-teaming с модулем замены кода (code substitution), что позволяет через вызовы функций моделировать реалистичные и разнообразные атаки, ориентированные непосредственно на код. Опираясь на ответы целевого агента в ходе нескольких интерактивных попыток, RedCodeAgent оптимизирует свои стратегии, систематически проверяя уязвимости в режиме реального времени.

На этапе оценки RedCodeAgent интегрирует симулированные песочницы для выполнения кода и оценки последствий обнаруженного поведения. Такая оценка в песочнице обеспечивает более надёжную проверку вредоносного поведения и устраняет потенциальные смещения предыдущих статических методов, которые полагались исключительно на «LLM как судью».

fa7c373a9035dc135c389b5c5e8a14be

В Рисунке 2 приведён пример. Изначально RedCodeAgent обнаруживает, что запрос был отклонён, после чего применяет алгоритм Greedy Coordinate Gradient (GCG) для обхода защит. После того как второй запрос также был отклонён целевым агентом, RedCodeAgent вызвал и Code Substitution, и GCG для оптимизации промпта. В итоге RedCodeAgent успешно комбинировал предложение от Code Substitution (например, использование pathlib) с состязательным суффиксом (adversarial suffix), сгенерированным GCG, в результате чего целевой code agent удалил указанный файл.

Выводы из работы RedCodeAgent

Эксперименты на разных бенчмарках показывают, что RedCodeAgent одновременно достигает более высокого показателя успешности атак (ASR) и более низкого уровня отклонений, при этом выявляются несколько ключевых наблюдений, приведённых ниже.

Использование традиционных jailbreak-методов само по себе не обязательно повышает ASR на code agents

Оптимизированные промпты, сгенерированные GCG, AmpleGCG, Advprompter и AutoDAN, не всегда дают более высокий ASR по сравнению со статическими промптами без jailbreak, как видно на Рисунке 3. Это, вероятно, связано с отличием задач, ориентированных на код, от общих задач по генерации вредоносных запросов в контексте безопасности LLM. В задачах, связанных с кодом, недостаточно того, чтобы целевой code agent просто не отклонил запрос; он обязан сгенерировать и выполнить код, который реализует требуемую функцию. Предыдущие jailbreak-методы этого не гарантируют. RedCodeAgent же обеспечивает, чтобы входной промпт имел чёткую функциональную цель (например, удаление конкретных конфиденциальных файлов). RedCodeAgent может динамически подстраиваться по обратной связи от модуля оценки, непрерывно оптимизируя свои действия до достижения поставленных целей.

RedCodeAgent достигает наивысшего ASR по сравнению с другими методами
RedCodeAgent достигает наивысшего ASR по сравнению с другими методами

RedCodeAgent демонстрирует адаптивное использование инструментов

RedCodeAgent может динамически корректировать использование инструментов в зависимости от сложности задачи. На Рисунке 4 показано, что комбинация вызовов инструментов различается для разных задач. Для простых задач, где базовые статические тест-кейсы уже достигают высокого ASR, RedCodeAgent тратит мало ресурсов на вызов дополнительных инструментов, что демонстрирует его эффективность. Для более сложных задач, где базовые статические тест-кейсы в RedCode-Exec показывают более низкий ASR, мы наблюдаем, что RedCodeAgent больше использует продвинутые инструменты, такие как GCG и Advprompter, чтобы оптимизировать промпт для успешной атаки. В результате среднее время, затрачиваемое на вызов различных инструментов, варьируется в зависимости от задачи, — это указывает на то, что RedCodeAgent адаптирует стратегию под конкретную задачу.

Среднее время, затрачиваемое RedCodeAgent на вызов различных инструментов или отправку запроса к целевому code agent в успешных случаях для каждого сценария риска
Среднее время, затрачиваемое RedCodeAgent на вызов различных инструментов или отправку запроса к целевому code agent в успешных случаях для каждого сценария риска

RedCodeAgent обнаруживает новые уязвимости

В сценариях, где другие методы не в состоянии найти успешные стратегии атак, RedCodeAgent выявляет новые, реализуемые подходы обхода ограничений (jailbreak). В количественном выражении мы обнаружили, что RedCodeAgent способен выявить 82 уникальные уязвимости на агенте OpenCodeInterpreter (из 27*30=810 случаев в бенчмарке RedCode-Exec) и 78 — на агенте ReAct. Это случаи, в которых все базовые методы не смогли определить уязвимость, тогда как RedCodeAgent добился успеха.

Русскоязычное сообщество про AI в разработке

8730c242ca31fe650f13b9ac13533a48

Друзья! Эту статью подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Вывод

RedCodeAgent сочетает адаптивную память, специализированные инструменты и симулированные среды исполнения кода, чтобы обнаруживать реальные риски, незаметные для статических бенчмарков. Он последовательно превосходит ведущие методы jailbreak, достигая более высоких показателей успешности атак и более низкого уровня отклонений, оставаясь при этом эффективным и адаптивным в отношении разных агентов и языков программирования.

Источник: habr.com

✅ Найденные теги: RedCodeAgent:, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых