Image

Zip-бомбы против агрессивных ИИ-краулеров

8ac39966488ea4e3a44694503104f77a

Некоторые владельцы сайтов жалуются на большое количество ботов, которые создают нагрузку на серверы, особенно краулеры для LLM (ИИ). По информации аналитического отчёта Fastly, краулеры, скраперы и фетчеры иногда создают нагрузку на сайт до 39 тыс. запросов в минуту.

В 2025 году нагрузка от скраперов выросла на 87%, причём основной трафик идёт от RAG-скраперов, а не для первичного обучения моделей.

Сейчас ИИ-краулеры генерируют около 80% всего трафика ИИ-ботов в интернете. Всего 20% приходится на фетчеры, но они ответственны за серьёзные пиковые нагрузки. Например, ClaudeBot компании Anthropic отправил миллион запросов за сутки к сайту с техническими инструкциями iFixit.com и 3,5 млн запросов за четыре часа к Freelancer.com.

Изменение объёма запросов от ведущих ИИ-краулеров. Источник: отчёт Fastly
Изменение объёма запросов от ведущих ИИ-краулеров. Источник: отчёт Fastly

Среди всех ботов одним из самых назойливых является краулер Facebook (признана экстремистской организацией в РФ):

Этот бот даже периодически меняет user-agent (после блокировки предыдущего).

Боты Perplexity AI замечены в выходе за диапазон официальных IP-адресов и игнорировании директивы robots.txt.

4eaec00fbccd0654c0b2f33ec8a76959

Защита от краулеров

Традиционно против ботов используется комбинация нескольких методов, включая ограничение на количество запросов и капчи — задачи, сложные для компьютеров, но тривиальные для людей, фильтрация по user-agent и др.

Есть и более креативные решения. Например, система Anubis проверяет все входящие HTTP-соединения и заставляет выполнить на клиенте определённую вычислительную задачу SHA-256:

calcString := fmt.Sprintf(«%s%d», challenge, nonce) calculated := internal.SHA256sum(calcString) if subtle.ConstantTimeCompare([]byte(response), []byte(calculated)) != 1 { // … } // compare the leading zeroes if !strings.HasPrefix(response, strings.Repeat(«0», rule.Challenge.Difficulty)) { // … }

Эта задача похожа на те, что выполняют вредоносные биткоин-майнеры. Сами разработчики вдохновлялись популярной антиспамерской системой Hashcash из 90-х.

Предполагается, что таким образом Anubis сильно нагружает дата-центры ИИ, откуда запускаются краулеры. Если это и не блокирует их доступ, то наносит противнику определённый ущерб.

У проекта Anubis 13 тыс. звёзд на Github, что косвенно указывает на количество сайтов под его защитой
У проекта Anubis 13 тыс. звёзд на Github, что косвенно указывает на количество сайтов под его защитой

Но критики подобного подхода подсчитали, что такая нагрузка является несущественной, а защита к тому же легко обходится.

Среди других защитных вариантов — распознавание крауеров (фингерпринтинг) по некоторым характерным признакам, таким как user-agent от старых браузеров или отказ принимать сжатые файлы, чтобы уберечься от zip-бомб.

Zip-бомбы

В последнее для защиты от агрессивных ИИ-краулеров стали активно использоваться zip-бомбы, которые истощают оперативную память в дата-центре краулера. Это может быть стандартный архив размером 10 МБ, который распаковывается в 10 ГБ:

$ dd if=/dev/zero bs=1M count=10240 | gzip -9 > 10G.gzip

Или валидный HTML:

#!/bin/fish # Base HTML echo -n ‘<!DOCTYPE html><html lang=en><head><meta charset=utf-8><title>Projet: Valid HTML bomb</title><meta name=fediverse:creator content=><link rel=canonical href=https://ache.one/bomb.html><!—‘ # Create a file filled with H echo -n (string repeat —count 258 ‘H’) >/tmp/H_258 # Lots of H for i in (seq 507) # Concat H_258 with itself times cat (yes /tmp/H_258 | head —lines=81925) end cat (yes /tmp/H_258 | head —lines=81924) # End of HTML comment and body tag echo -n «—><body><p>This is a HTML valid bomb, cf. https://ache.one/articles/html_zip_bomb</p></body>»

…со сжатием 1:1030:

$ fish zip_bomb.fish | gzip -9 > bomb.html.gz $ du -sb bomb.html.gz 10180 bomb.html.gz

Обычные краулеры защищены от таких бомб, потому что страница с бомбой запрещена к посещению в robots.txt.

Поскольку обычные браузеры вроде Chrome и Firefox тоже выходят из строя при попытке отобразить такой HTML, на него не ставят прямых ссылок с веб-страниц, чтобы живые пользователи не зашли туда по ошибке. Такая страница доступна только для ИИ-ботов.

По мнению некоторых активистов, на эффективность zip-бомб указывает тот факт, что разработчики краулеров пытаются уберечься через запрет на получение zip-контента. В свою очередь, такие директивы — один из признаков вредоносных краулеров, то есть она полезна для фингерпринтинга.

В качестве дополнительной нагрузки на клиента некоторые веб-мастеры предлагают такой вариант:

(echo ‘<html><head></head><body>’ && yes «<div>») | dd bs=1M count=10240 iflag=fullblock | gzip > bomb.html.gz

Хотя такая защита наносит вред экологии веба, некоторые веб-мастеры всё равно применяют их в условиях, когда боты генерируют более 50% нагрузки на серверы. Если старые поисковые боты соблюдают директивы, то новые ИИ-краулеры иногда ведут себя более деструктивно. Например, один веб-мастер показал графики из системы аналитики, как краулер GPTBot от OpenAI израсходовал 30 ТБ трафика на его тарифном плане за месяц, то есть все его файлы общим объёмом 600 МБ были выкачаны примерно 50 тыс. раз:

0c346db96640711f6f106cf50b083ae9

Во время визита краулеров нагрузка на серверные CPU возрастает в несколько раз:

f9e9130c1024bd14e08331ba2725fdaa

В итоге даже за текущую работу ИИ-моделей платят владельцы сторонних сайтов, не говоря уже о том, что первоначальное обучение этих моделей тоже происходило на их контенте.

Неэтичное поведение ИИ-краулеров, которые игнорируют robots.txt, приводится некоторыми веб-мастерами как оправдание для применения деструктивных мер защиты.

Источник: habr.com

Источник: ai-news.ru

✅ Найденные теги: Zip-бомбы, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Огромный омар на морском дне, окружённый крабами и рыбой.
Графики сравнения производительности: агенты, кодирование, изображение, видео.
Диаграммы сравнений производительности ИИ для задач агентов, кодирования, изображений и видео.
Графики сравнения производительности ИИ-агентов в задачах по категориям: агенты, код, изображение, видео.
ideipro logotyp
Скриншот сайта Anna's Archive с базой данных книг и научных статей.
ideipro logotyp
ideipro logotyp
ideipro logotyp
Image Not Found
Компьютер с изображением робота и иконками приложений на экране, символизирует технологии.

Как комбинировать несколько ИИ‑сервисов в один конвейер: от идеи до публикации за один вечер

ИИ сейчас умеет многое, но магии «одной кнопки, которая сделает идеальную статью и сама её опубликует» всё ещё нет. Зато можно собрать…

Фев 23, 2026
Женщина работает за ноутбуком, цифровая коммуникация, графики и письма, концепция удаленной работы.

AI‑агенты для рядового пользователя: 5 сценариев, которые реально экономят время

Слово «AI‑агент» в 2026 году звучит уже не как фантастика, а как нормальный рабочий инструмент, который тихо делает за нас рутину. Компании…

Фев 22, 2026
ideipro logotyp

Claude in PowerPoint — редактирование презентаций в реальном времени Anthropic…

Claude in PowerPoint — редактирование презентаций в реальном времени Anthropic запустили бета-версию Claude in PowerPoint — ассистент…

Фев 21, 2026
Экран выбора области для общего доступа в приложении, выделена вся область экрана.

💻 Разбираемся с любым непонятным интерфейсом. Screen Vision — это…

💻 Разбираемся с любым непонятным интерфейсом. Screen Vision — это ИИ-ассистент, который смотрит, что происходит на вашем экране и…

Фев 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых