Работает ли Caveman? Тестируем модный скилл для экономии токенов
Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.
Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!
Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.
Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.
В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.
Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.
А пока я решил протестировать этого caveman’а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.
Как тестировал
Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.
И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.
Поэтому я придумал такой тестовый промпт:
Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.
В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.
Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:
-
Opus 4.8
-
Opus 4.8 With Caveman
-
Sonnet 4.6
-
Sonnet 4.6 With Caveman
На выходе получилось 4 игры.
По самим играм:
▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.
▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.
Итого, по качеству решений Caveman только все ухудшил.
С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:
Opus 4.8 — COLOSSUS
Opus 4.8 With Caveman — COLOSSUS-С

Sonnet 4.6 — TITAN-X7

Sonnet 4.6 With Caveman — TITAN

А что по токенам?
С качеством не задалось, окей. Но может хоть токены сэкономим?
|
Конфигурация |
Токены |
Время |
|
Sonnet 4.6 |
42.2k tokens |
16m 12s |
|
Sonnet 4.6 With Caveman |
52k tokens |
12m 50s |
|
Opus 4.8 |
32.5k tokens |
5m 16s |
|
Opus 4.8 With Caveman |
29k tokens |
4m 34s |
На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.
|
Конфигурация |
Токены |
Время |
|
Sonnet 4.6 |
40.3k tokens |
15m 36s |
|
Sonnet 4.6 With Caveman |
59.1k tokens |
12m 50s |
На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!
В общем, и тут я бы констатировал промах.
Как итог
На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.
Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:
-
Делается проект.
-
На него закупаются звёзды на гитхаб.
-
Создается пост в твиттере, мол я запилил проект с кучей звёзд.
-
Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты.
-
А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.
-
Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.
Это, конечно, лишь мои догадки, но если смотреть по цифрам:
-
Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.
-
Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал.
-
Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.
Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.
Послесловие
Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты…
На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.
А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.
Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.
Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.А вы пользуетесь caveman?18.75%Юзаю, и вроде норм 🤷30%Юзал, выпилил00%Поставил, но не замерял — пользуюсь на доверии037.5%Нет, обхожусь Be brief618.75%Впервые слышу, пойду гляну325%Я и есть автор, не палите схему 😏4 Проголосовали 16 пользователей. Воздержались 5 пользователей.
Источник: habr.com
Оцените материал:
Похожие записи
Президент SpaceX Гвинн Шотвелл дала очередной намек на возможное слияние с Tesla.
15.06.2026
Китайская GigaBrain представила первого универсального домашнего робота Shiguang S1,
12.06.2026
UBTech анонсировала мужскую и женскую версии гуманоидных роботов компаньонов U1,
12.06.2026Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
