Точно ли агенты безопасны?
Буквально недавно я писал статью по мотивам материала Anthropic — того самого, где опять говорили «джуны больше не нужны».
Ребята учитывают одни детали, игнорируют другие и по факту сравнивают тёплое с мягким 🙂 потому что основная проблема джунов — далеко не LLM-агенты, но подробнее в той статье
Но к чему это я? Anthropic выкатили ещё один материал — уже про использование агентов в безопасности
Меня зовут Эдгар Сипки, я founder easyp & sipki tech и отбираю доклады на Golang Conf в программном комитете. А в своём тг-канале делюсь прикладными LLM — инструментами и подходами для разработки — подписывайтесь, дальше будет больше 🙂

Суть вот в чём — LLM-агенты это уже полноценный инструмент взлома. За год Anthropic заблокировали 832 аккаунта за злоупотребления, и доля действительно опасных акторов выросла с ~33% до ~56%. Опаснее становится не «вообще всё», а именно доля серьёзных игроков
Одна история — то, как могут взломать вас, вашего агента, вашего помощника, к примеру через промпт-инъекции в скиллах или через MCP.
Но есть вопрос поинтереснее 🙂
А могут ли ваш продукт взломать, используя LLM?
Ответ — да…
LLM агента подключают буквально на всех этапах сейчас, от написания кода вируса до поиска учёток в уже взломанных сетях
Самый жёсткий кейс получил риск-балл 100 из 100: шпионская кампания, где агент сам вёл разведку, эксплуатировал уязвимости, ходил по сети и собирал данные.
В ноябре 2025 года Anthropic опубликовала отчёт о том, что они назвали «первой задокументированной AI-оркестрированной кибершпионской кампанией». Группировка GTG-1002
Агент выполнял 80–90% всей операции самостоятельно: разведку, написание эксплойтов, перехват учётных данных, перемещение по сети и эксфильтрацию данных. Человек-оператор вмешивался лишь в 4–6 ключевых точках на всём протяжении кампании. Именно эта операция получила максимальный балл ARiES (AI Risk Enablement Score) — 100 из 100 🙂
Но, об этом подробнее, в тг, а мы пожалуй вернемся к сути пока статьи Как биться с будущими… ?

С одной стороны, есть инструменты для анализа ваших скиллов, MCP и так далее, такие как Bumblebee и Skill Spectre. Их задача — сделать так, чтобы ваше рабочее пространство и ваших агентов не взломали.
Но что делать, если вы пишете проект и можете не учитывать те или иные кейсы безопасности? И вот тут гораздо интереснее.
А если дыра в вашем собственном коде?
Mythos и его наследник fable хайпанули в первую очередь тем, что позволили найти огромное количество дыр в безопасности в крупных системах.
Но вот в чём факт: немалую часть этих уязвимостей нашли только потому, что был доступ к коду, так как проекты были oss. Здесь маркетинг пиар немножко отыграл своё, будем честны 🙂

ТО ЕСТЬ!
Mythos особенно хорошо находит уязвимости именно тогда, когда ей доступен исходный код, а при анализе в изоляции или в black-box режиме результаты кратно становится хуже. Разрыв с доступом к исходнику количество ложноотрицательных результатов снижается на 55% по сравнению с анализом без него, но, пока не раслабляем булки, дальше интереснее
Одно из самых важных деталей: это все было и до mythos 🙂 Видите ли, 70% атакующих инструментов — это OSS-модели , по Bi.Zone как раз таки недавно опубликовала анализ всей этой истории и в итоге — 70% это open-source модели, дообученные или аблитерированные специально под генерацию вредоносного контента
К чему это я — современные агенты, особенно опенсорсные — уже достигли достаточного развития , чтобы помогать искать уязвимости в системе (особенно уж если у вас открытый код к которому можно его подключить).
Особенно с учётом того, что есть Heretic, который позволяет провести аблитерацию любой модели и заставить её выдавать практически любую запрещённую информацию, а также помогать в любых (абсолютно) задачах, в итоге планка входа для атакующего упала и продолжает падать
Так в итоге, это лишний хайп Mythos или же реаьлность?

И хайп, и реальность — и нет, это не увиливание 🙂
-
Хайп — потому что и до Mythos этим активно занимались, просто ребята решили очень неплохо распиарить свой новый продукт
-
Реальность — планка входа атакующих сильно упала, и скорее всего будет дальше падать
Так что вопрос не «правда ли агенты умеют ломать». Вопрос — что делать, чтобы ломали вас чуть поменьше 🙂
Одна история — писать код, а другая — проверить, что он безопасный

Безопасность кода — отдельный навык, и вайб-кодинг его по умолчанию не покрывает (особенно если еще и вайбкодер пишет, а не программист) агент пишет работающий код, а не безопасный — это разные критерии приёмки
И речь даже не о том, что ваш продукт целенаправленно будет ломать Opus, речь о том, чтобы код, написанный вечерком, сам не оставил дыру — как недавно в одном из стартапов, где вайб-код оставил открытый токен прямо во фронтенде 😀
Но, что делать если доступа до Mythos нет? (или он крайне дорогой) — Security скиллы, ведь до начала хайпа Mythos , многие как раз таки их и использовали, Anthropic просто красиво завернули всю эту историю. Ведь если OSS модели уже помогают атакующей стороне, то поверьте — они хорошо помогают и нам, причем
Причем один из самых популярных — скилл от разработчиков sentry , и он проверяет код на типовые дыры — секреты в клиентском коде, инъекции, права доступа и многое другое
Ну и про workspace не забываем, ведь код мы проверили — а взломать могут и само рабочее пространство, через скиллы и MCP. Для этого — Bumblebee и Skill Spectre, про них было выше (и подробнее позже распишу в тг)
Что в итоге
В прошлой статье я Anthropic критиковал — и не отказываюсь 🙂
Тут ребята тоже без пиара не обошлись все таки, Mythos завернули красиво — хотя и ломагенты, и security-скиллы прекрасно жили до них
Но, будем объективны, планка входа для атакующего упала и будет падать еще сильнее, но к счастью, нам тоже становится проще, ведь если агент может найти дырку в безопасности, помочь ее залатать он тоже может неплохо 🙂
P.S. Дальше будет продолжение уже про Bumblebee и Skill Spectre в тг
Источник: habr.com
Похожие записи
Оцените материал:
Похожие записи
Эта звездная система содержит 5 потенциально обитаемых планет
29.07.2025
Если в Австралии сейчас наблюдается бум в сфере искусственного интеллекта, давайте не будем его растрачивать впустую. Давайте выберем другой путь. | Питер Льюис
26.05.2026
