Точно ли агенты безопасны?

15.06.2026 ideipro.ru

Буквально недавно я писал статью по мотивам материала Anthropic — того самого, где опять говорили «джуны больше не нужны».

Ребята учитывают одни детали, игнорируют другие и по факту сравнивают тёплое с мягким 🙂 потому что основная проблема джунов — далеко не LLM-агенты, но подробнее в той статье

Но к чему это я? Anthropic выкатили ещё один материал — уже про использование агентов в безопасности

Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале делюсь прикладными LLM — инструментами и подходами для разработки — подписывайтесь, дальше будет больше 🙂

Суть вот в чём — LLM-агенты это уже полноценный инструмент взлома. За год Anthropic заблокировали 832 аккаунта за злоупотребления, и доля действительно опасных акторов выросла с ~33% до ~56%. Опаснее становится не «вообще всё», а именно доля серьёзных игроков

Одна история — то, как могут взломать вас, вашего агента, вашего помощника, к примеру через промпт-инъекции в скиллах или через MCP.

Но есть вопрос поинтереснее 🙂

А могут ли ваш продукт взломать, используя LLM?

Ответ — да…

LLM агента подключают буквально на всех этапах сейчас, от написания кода вируса до поиска учёток в уже взломанных сетях

Самый жёсткий кейс получил риск-балл 100 из 100: шпионская кампания, где агент сам вёл разведку, эксплуатировал уязвимости, ходил по сети и собирал данные.

В ноябре 2025 года Anthropic опубликовала отчёт о том, что они назвали «первой задокументированной AI-оркестрированной кибершпионской кампанией». Группировка GTG-1002

Агент выполнял 80–90% всей операции самостоятельно: разведку, написание эксплойтов, перехват учётных данных, перемещение по сети и эксфильтрацию данных. Человек-оператор вмешивался лишь в 4–6 ключевых точках на всём протяжении кампании. Именно эта операция получила максимальный балл ARiES (AI Risk Enablement Score) — 100 из 100 🙂

Но, об этом подробнее, в тг, а мы пожалуй вернемся к сути пока статьи Как биться с будущими… ?

С одной стороны, есть инструменты для анализа ваших скиллов, MCP и так далее, такие как Bumblebee и Skill Spectre. Их задача — сделать так, чтобы ваше рабочее пространство и ваших агентов не взломали.

Но что делать, если вы пишете проект и можете не учитывать те или иные кейсы безопасности? И вот тут гораздо интереснее.

А если дыра в вашем собственном коде?

Mythos и его наследник fable хайпанули в первую очередь тем, что позволили найти огромное количество дыр в безопасности в крупных системах.

Но вот в чём факт: немалую часть этих уязвимостей нашли только потому, что был доступ к коду, так как проекты были oss. Здесь маркетинг пиар немножко отыграл своё, будем честны 🙂

ТО ЕСТЬ!

Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее

Одно из самых важных деталей: это все было и до mythos 🙂 Видите ли, 70% атакующих инструментов — это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге — 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента

К чему это я — современные агенты, особенно опенсорсные — уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).

Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать

Так в итоге, это лишний хайп Mythos или же реаьлность?

И хайп, и реальность — и нет, это не увиливание 🙂

Хайп — потому что и до Mythos этим активно занимались, просто ребята решили очень неплохо распиарить свой новый продукт
Реальность — планка входа атакующих сильно упала, и скорее всего будет дальше падать

Так что вопрос не «правда ли агенты умеют ломать». Вопрос — что делать, чтобы ломали вас чуть поменьше 🙂

Одна история — писать код, а другая — проверить, что он безопасный

Безопасность кода — отдельный навык, и вайб-кодинг его по умолчанию не покрывает (особенно если еще и вайбкодер пишет, а не программист) агент пишет работающий код, а не безопасный — это разные критерии приёмки

И речь даже не о том, что ваш продукт целенаправленно будет ломать Opus, речь о том, чтобы код, написанный вечерком, сам не оставил дыру — как недавно в одном из стартапов, где вайб-код оставил открытый токен прямо во фронтенде 😀

Но, что делать если доступа до Mythos нет? (или он крайне дорогой) — Security скиллы, ведь до начала хайпа Mythos , многие как раз таки их и использовали, Anthropic просто красиво завернули всю эту историю. Ведь если OSS модели уже помогают атакующей стороне, то поверьте — они хорошо помогают и нам, причем

Причем один из самых популярных — скилл от разработчиков sentry , и он проверяет код на типовые дыры — секреты в клиентском коде, инъекции, права доступа и многое другое

Ну и про workspace не забываем, ведь код мы проверили — а взломать могут и само рабочее пространство, через скиллы и MCP. Для этого — Bumblebee и Skill Spectre, про них было выше (и подробнее позже распишу в тг)

Что в итоге

В прошлой статье я Anthropic критиковал — и не отказываюсь 🙂

Тут ребята тоже без пиара не обошлись все таки, Mythos завернули красиво — хотя и ломагенты, и security-скиллы прекрасно жили до них

Но, будем объективны, планка входа для атакующего упала и будет падать еще сильнее, но к счастью, нам тоже становится проще, ведь если агент может найти дырку в безопасности, помочь ее залатать он тоже может неплохо 🙂

P.S. Дальше будет продолжение уже про Bumblebee и Skill Spectre в тг

Источник: habr.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.