Новости робототехники

Работает ли Caveman? Тестируем модный скилл для экономии токенов

Работает ли Caveman? Тестируем модный скилл для экономии токенов
Работает ли Caveman? Тестируем модный скилл для экономии токенов

Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.

Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!

Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.

Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.

В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.

Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.

А пока я решил протестировать этого caveman’а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.

Как тестировал

Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.

И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.

Поэтому я придумал такой тестовый промпт:

Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.

В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.

Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти у клода. Итого получился такой набор тестов:

  • Opus 4.8

  • Opus 4.8 With Caveman

  • Sonnet 4.6

  • Sonnet 4.6 With Caveman

На выходе получилось 4 игры. 

По самим играм:

▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.

▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.

Итого, по качеству решений Caveman только все ухудшил.

С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:

Opus 4.8 — COLOSSUS

Поиграть тут клик!

Opus 4.8 With Caveman — COLOSSUS-С

Поиграть тут клик!
Поиграть тут клик!

Sonnet 4.6 — TITAN-X7

Поиграть тут клик!
Поиграть тут клик!

Sonnet 4.6 With Caveman — TITAN

Поиграть тут клик!
Поиграть тут клик!

А что по токенам?

С качеством не задалось, окей. Но может хоть токены сэкономим?

Конфигурация

Токены

Время

Sonnet 4.6

42.2k tokens

16m 12s

Sonnet 4.6 With Caveman

52k tokens

12m 50s

Opus 4.8

32.5k tokens

5m 16s

Opus 4.8 With Caveman

29k tokens

4m 34s

На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.

Конфигурация

Токены

Время

Sonnet 4.6

40.3k tokens

15m 36s

Sonnet 4.6 With Caveman

59.1k tokens

12m 50s

На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!

В общем, и тут я бы констатировал промах.

Как итог

На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md работает лучше.

Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:

  1. Делается проект. 

  2. На него закупаются звёзды на гитхаб. 

  3. Создается пост в твиттере, мол я запилил проект с кучей звёзд. 

  4. Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты. 

  5. А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.

  6. Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.

Это, конечно, лишь мои догадки, но если смотреть по цифрам: 

  • Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.

  • Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал. 

  • Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

40a6eff4901133efe94e91fc61a93569

К примеру библиотека tailwindcss набрала за аналогичный период всего 58 звёзд.

Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.

Послесловие

Теперь про то, что работает. По моему опыту, сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты… 

На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.

А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик, где мы порой публикуем подобные исследования.

Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.А вы пользуетесь caveman?18.75%Юзаю, и вроде норм 🤷30%Юзал, выпилил00%Поставил, но не замерял — пользуюсь на доверии037.5%Нет, обхожусь Be brief618.75%Впервые слышу, пойду гляну325%Я и есть автор, не палите схему 😏4 Проголосовали 16 пользователей. Воздержались 5 пользователей.

Источник: habr.com

❌ Нет похожих статей с такими тегами

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Архив рубрики ~Обо всем~ Xfinity предоставляет новым клиентам Wi-Fi в тот же день. Архив рубрики ~Коротко из Telegram~ +50% выручки за месяц. Что случилось с Perplexity. Несколько недель… Архив рубрики ~Коротко из Telegram~ AI убивает консалтинг. Интересно наблюдать за тем, что происходит с… Архив рубрики ~Лента новостей~ 5 интересных проектов с использованием OpenAI Codex Архив рубрики ~Лента новостей~ Мировые лидеры хотят, чтобы американский ИИ был разработан. Они просто не хотят, чтобы у Америки была возможность его отключить. Архив рубрики ~Лента новостей~ Практически автономный химик на основе искусственного интеллекта улучшает сложную реакцию в медицинской химии | OpenAI Архив рубрики ~Лента новостей~ Компания Anthropic отключит свои самые передовые модели ИИ после распоряжения США, ограничивающего доступ к ним из-за рубежа. Архив рубрики ~Лента новостей~ «РуПост» обновил корпоративный почтовый клиент Desktop X Архив рубрики ~Лента новостей~ Производитель экообуви Allbirds, который решил заняться продажей облачных решений для ИИ, официально сменил название — акции выросли на 49% Архив рубрики ~Лента новостей~ О конференции OpenTalks.AI 2026: мои впечатления и 5 полезных докладов Архив рубрики ~Обо всем~ Шмели с ходу решили новую задачу. Им не потребовалось обучение Архив рубрики ~Лента новостей~ Новейший гаджет от Commodore — это раскладной телефон, блокирующий социальные сети и браузеры. Архив рубрики ~Коротко из Telegram~ MiniMax Hub: Нейросетевой конвейер на бесконечном холсте MiniMax презентовали Hub… Архив рубрики ~Коротко из Telegram~ Готовые loop-сценарии для AI-агентов Вместо того чтобы каждый раз вручную… Архив рубрики ~Обо всем~ Xfinity предоставляет новым клиентам Wi-Fi в тот же день. Архив рубрики ~Коротко из Telegram~ +50% выручки за месяц. Что случилось с Perplexity. Несколько недель… Архив рубрики ~Коротко из Telegram~ AI убивает консалтинг. Интересно наблюдать за тем, что происходит с… Архив рубрики ~Лента новостей~ 5 интересных проектов с использованием OpenAI Codex Архив рубрики ~Лента новостей~ Мировые лидеры хотят, чтобы американский ИИ был разработан. Они просто не хотят, чтобы у Америки была возможность его отключить. Архив рубрики ~Лента новостей~ Практически автономный химик на основе искусственного интеллекта улучшает сложную реакцию в медицинской химии | OpenAI Архив рубрики ~Лента новостей~ Компания Anthropic отключит свои самые передовые модели ИИ после распоряжения США, ограничивающего доступ к ним из-за рубежа. Архив рубрики ~Лента новостей~ «РуПост» обновил корпоративный почтовый клиент Desktop X Архив рубрики ~Лента новостей~ Производитель экообуви Allbirds, который решил заняться продажей облачных решений для ИИ, официально сменил название — акции выросли на 49% Архив рубрики ~Лента новостей~ О конференции OpenTalks.AI 2026: мои впечатления и 5 полезных докладов Архив рубрики ~Обо всем~ Шмели с ходу решили новую задачу. Им не потребовалось обучение Архив рубрики ~Лента новостей~ Новейший гаджет от Commodore — это раскладной телефон, блокирующий социальные сети и браузеры. Архив рубрики ~Коротко из Telegram~ MiniMax Hub: Нейросетевой конвейер на бесконечном холсте MiniMax презентовали Hub… Архив рубрики ~Коротко из Telegram~ Готовые loop-сценарии для AI-агентов Вместо того чтобы каждый раз вручную…

Оставить комментарий