Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

RedCodeAgent: новая платформа для автоматизированной проверки безопасности кодовых агентов AI

Ноя 10, 2025 0

Содержание

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.

Code agents — это системы на основе искусственного интеллекта, способные генерировать высококачественный код и эффективно взаимодействовать с интерпретаторами кода. Эти возможности упрощают сложные процессы разработки программного обеспечения, что и обусловило их широкое распространение.

Однако вместе с этим прогрессом возникают серьёзные риски в области безопасности. Существующие статические бенчмарки безопасности и методы red-teaming (проверки безопасности, при которых исследователи моделируют реальные атаки, чтобы выявить уязвимости) часто оказываются недостаточными при оценке code agents. Они могут не выявлять новые типы рисков, например, комбинированное воздействие нескольких инструментов для обхода ограничений (jailbreak).

В контексте генерации кода эффективный red-teaming требует большего, чем просто проверка, отклоняет ли агент небезопасные запросы. Агент должен уметь генерировать и выполнять корректный код, реализующий потенциально опасную функциональность. Поэтому при оценке таких систем важно анализировать не только статический код, но и поведение при его исполнении.

Чтобы решить эти проблемы, исследователи из Чикагского университета, Университета Иллинойса в Урбана-Шампейн, VirtueAI, Британского института безопасности ИИ, Оксфордского университета, Калифорнийского университета в Беркли и Microsoft Research предложили RedCodeAgent — первый полностью автоматизированный и адаптивный red-teaming агент, специально разработанный для оценки безопасности code agents, построенных на больших языковых моделях (LLM).

Обширные экспериментальные результаты подтверждают эффективность и производительность RedCodeAgent при тестировании:

разнообразных уязвимостей и типов вредоносного ПО из классификации CWE,
различных языков программирования — включая Python, C, C++ и Java,
широкого спектра code agents, таких как OpenCodeInterpreter, ReAct, MetaGPT, а также коммерческих агентов — например, Cursor и Codeium.

RedCodeAgent также выявляет распространённые уязвимости среди разных агентов (например, генерацию и выполнение небезопасного кода), показывает различия в сложности red-teaming для разных целей, определяет наиболее часто активируемые инструменты атак и находит ранее неизвестные уязвимости, которые остаются незамеченными другими базовыми методами.

Рисунок 1: Иллюстрация работы RedCodeAgent при автоматическом red-teaming против целевого code agent

Как показано на Рисунке 1, RedCodeAgent оснащён модулем памяти, который накапливает удачные атаки, позволяя системе непрерывно учиться и адаптировать свои стратегии. На основе изучённого опыта RedCodeAgent дополнительно использует специализированный инструментарий, сочетающий типичные средства red-teaming с модулем замены кода (code substitution), что позволяет через вызовы функций моделировать реалистичные и разнообразные атаки, ориентированные непосредственно на код. Опираясь на ответы целевого агента в ходе нескольких интерактивных попыток, RedCodeAgent оптимизирует свои стратегии, систематически проверяя уязвимости в режиме реального времени.

На этапе оценки RedCodeAgent интегрирует симулированные песочницы для выполнения кода и оценки последствий обнаруженного поведения. Такая оценка в песочнице обеспечивает более надёжную проверку вредоносного поведения и устраняет потенциальные смещения предыдущих статических методов, которые полагались исключительно на «LLM как судью».

В Рисунке 2 приведён пример. Изначально RedCodeAgent обнаруживает, что запрос был отклонён, после чего применяет алгоритм Greedy Coordinate Gradient (GCG) для обхода защит. После того как второй запрос также был отклонён целевым агентом, RedCodeAgent вызвал и Code Substitution, и GCG для оптимизации промпта. В итоге RedCodeAgent успешно комбинировал предложение от Code Substitution (например, использование pathlib) с состязательным суффиксом (adversarial suffix), сгенерированным GCG, в результате чего целевой code agent удалил указанный файл.

Выводы из работы RedCodeAgent

Эксперименты на разных бенчмарках показывают, что RedCodeAgent одновременно достигает более высокого показателя успешности атак (ASR) и более низкого уровня отклонений, при этом выявляются несколько ключевых наблюдений, приведённых ниже.

Использование традиционных jailbreak-методов само по себе не обязательно повышает ASR на code agents

Оптимизированные промпты, сгенерированные GCG, AmpleGCG, Advprompter и AutoDAN, не всегда дают более высокий ASR по сравнению со статическими промптами без jailbreak, как видно на Рисунке 3. Это, вероятно, связано с отличием задач, ориентированных на код, от общих задач по генерации вредоносных запросов в контексте безопасности LLM. В задачах, связанных с кодом, недостаточно того, чтобы целевой code agent просто не отклонил запрос; он обязан сгенерировать и выполнить код, который реализует требуемую функцию. Предыдущие jailbreak-методы этого не гарантируют. RedCodeAgent же обеспечивает, чтобы входной промпт имел чёткую функциональную цель (например, удаление конкретных конфиденциальных файлов). RedCodeAgent может динамически подстраиваться по обратной связи от модуля оценки, непрерывно оптимизируя свои действия до достижения поставленных целей.

RedCodeAgent достигает наивысшего ASR по сравнению с другими методами

RedCodeAgent демонстрирует адаптивное использование инструментов

RedCodeAgent может динамически корректировать использование инструментов в зависимости от сложности задачи. На Рисунке 4 показано, что комбинация вызовов инструментов различается для разных задач. Для простых задач, где базовые статические тест-кейсы уже достигают высокого ASR, RedCodeAgent тратит мало ресурсов на вызов дополнительных инструментов, что демонстрирует его эффективность. Для более сложных задач, где базовые статические тест-кейсы в RedCode-Exec показывают более низкий ASR, мы наблюдаем, что RedCodeAgent больше использует продвинутые инструменты, такие как GCG и Advprompter, чтобы оптимизировать промпт для успешной атаки. В результате среднее время, затрачиваемое на вызов различных инструментов, варьируется в зависимости от задачи, — это указывает на то, что RedCodeAgent адаптирует стратегию под конкретную задачу.

Среднее время, затрачиваемое RedCodeAgent на вызов различных инструментов или отправку запроса к целевому code agent в успешных случаях для каждого сценария риска

RedCodeAgent обнаруживает новые уязвимости

В сценариях, где другие методы не в состоянии найти успешные стратегии атак, RedCodeAgent выявляет новые, реализуемые подходы обхода ограничений (jailbreak). В количественном выражении мы обнаружили, что RedCodeAgent способен выявить 82 уникальные уязвимости на агенте OpenCodeInterpreter (из 27*30=810 случаев в бенчмарке RedCode-Exec) и 78 — на агенте ReAct. Это случаи, в которых все базовые методы не смогли определить уязвимость, тогда как RedCodeAgent добился успеха.

Русскоязычное сообщество про AI в разработке

Друзья! Эту статью подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Вывод

RedCodeAgent сочетает адаптивную память, специализированные инструменты и симулированные среды исполнения кода, чтобы обнаруживать реальные риски, незаметные для статических бенчмарков. Он последовательно превосходит ведущие методы jailbreak, достигая более высоких показателей успешности атак и более низкого уровня отклонений, оставаясь при этом эффективным и адаптивным в отношении разных агентов и языков программирования.

Источник: habr.com

✅ Найденные теги: RedCodeAgent:, новости

Метки:

RedCodeAgent:новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

10.11.2025

Раковые клетки крадут митохондрии у нейронов

СЛЕДУЮЩАЯ ЗАПИСЬ

10.11.2025

Загадочные пустоты в известной египетской пирамиде всерьёз озадачили учёных

zagadochnye-pustoty-v-izvestnoj-egipetskoj-piramide-vserjoz-ozadachili-uchjonyh-780c15e.jpg

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

RedCodeAgent: новая платформа для автоматизированной проверки безопасности кодовых агентов AI

Выводы из работы RedCodeAgent

Использование традиционных jailbreak-методов само по себе не обязательно повышает ASR на code agents

RedCodeAgent демонстрирует адаптивное использование инструментов

RedCodeAgent обнаруживает новые уязвимости

Русскоязычное сообщество про AI в разработке

Вывод

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в