ideipro logotyp

Мастерски снижаем затраты на токены LLM

Прошло три года, но Я четко помню, как впервые столкнулся с API GPT — это был восторг, но вскоре пришла и головная боль. Мой первый MVP, бот для разговорного английского Speakadora в Telegram, работал как часы. 

Число юзеров начало расти, счёт за токены рос тоже, будто я скупаю Биткоин в 2017-м. В стартапе каждая копейка на счету!

На уровне 15 000 активных пользователей, я быстро понял: без жесткой оптимизации промптов юнит экономика не такая вкусная и я пойду ко дну. Пришлось буквально «зачистить» лишние слова в промптах, убирая «пожалуйста» и синтаксический мусор. 

Я перестал думать о красоте и начал думать о плотности информации на токен. Это был первый, самый болезненный, но самый эффективный шаг.

Потом я заметил, что самые дорогие запросы — это те, где модель должна помнить весь контекст диалога с пользователем. Так я пришёл ко второму ключевому трюку стартаперов: грамотное управление окном контекста. 

Я начал использовать резюмирование (summarization), чтобы сжать длинную старую часть диалога до нескольких ключевых тезисов. Модель помнит суть, а я экономлю токены. Это стало критически ощутимо, когда пользователи наговорили уже 1 600 часов!

Следующий прорыв случился, когда я осознал: не для всего нужен GPT-4. Зачем платить гпт’хе за задачу, которую ее младший нейро брат сделает не хуже? Третий подход — это каскадная архитектура (cascading). 

Для быстрых, простых проверок грамматики в Speakadora я использовал GPT-3.5-Turbo. А вот для сложных ролевых игр или детальных объяснений — только GPT-4. По сути просто выбирал нужный «инструмент» под конкретную «гайку».

Финальный шаг был, пожалуй, самым хитрым. Я начал сравнивать сервисы-прослойки, которые продают доступ к тем же моделям. Такие стартапы закупают токены оптом или получают спец. условия как партнеры, и цена для конечного разработчика может быть ниже. В один момент я заметил, что одна и та же модель в разных сервисах имеет совсем разные цены (!!!). 

Например, во vsellm.ru токены могут стоить до 90% от цены на openrouter.ai! Это стало четвертым, неочевидным источником экономии. Особенно на фоне того, что в первом можно еще и РФ картой платить. Ребята из таких сервисов будто специально продалбываются. Но нам все равно. Для нас это способ хакнуть юнит-экономику. 

B добавим сюда еще один тоже классный способ, про кэширование токенов в промпте. Я его по умолчанию всегда настраиваю, но вдруг кто-то не пользуется до сих пор теряет.

Суммарно эти подходы позволили мне кратно сократить расходы. Только вдумайтесь: за 30 дней мы сжигаем 12М+ токенов, и это при том, что у нас зарегистрировано 25к человек! Мы научились быть эффективными. Благодаря этой экономии мы смогли выйти на стабильный доход: общее число платных подписок 700.

Мой подход превратился из бездумного «дай мне ответ» в стратегическое «дай мне ответ с минимальными затратами токенов». Это позволило почти всем моим продуктам остаться на плаву дольше, не разорившись на хайпе AI. 

И, честно говоря, это чувство победы над расходами не менее приятно, чем то, что мы помогаем людям: каждые 30 дней присоединяется по 500 новых «говорунов» чисто на органике.

Источник: habr.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

От Карфагена до Второй мировой: испанские археологи нашли 124 кораблекрушения в одной бухте
По мере приближения к смерти наши сны становятся более эмоциональными и символичными.
Почти треть человечества столкнётся с экстремальными погодными явлениями к концу XXI века: новое исследование
Переосмысление будущего разработки программного обеспечения
IPO компании SpaceX — это триллионная авантюра, связанная с будущим космоса.
IPO компании SpaceX — это триллионная авантюра, связанная с будущим космоса.
Почему в IT так много “синдрома самозванца”
Почему в IT так много “синдрома самозванца”
Sceye завершает исторический 12-дневный полет в стратосфере дальностью 6 400 миль, продвигая новый уровень инфраструктуры для человечества
Image Not Found
Переосмысление будущего разработки программного обеспечения

Переосмысление будущего разработки программного обеспечения

Как агентный ИИ изменит подход к разработке и управлению программным обеспечением. В этом столетии разработка программного обеспечения пережила два кардинальных сдвига. Во-первых, это подъем движения за открытый исходный код, которое постепенно сделало код доступным для разработчиков и…

Апр 23, 2026
IPO компании SpaceX — это триллионная авантюра, связанная с будущим космоса.

IPO компании SpaceX — это триллионная авантюра, связанная с будущим космоса.

Это либо блестящая дорожка к звездам, либо финансовая черная дыра. Фрилансер Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все работы Джорджины Торбет Ракета-носитель…

Апр 23, 2026
IPO компании SpaceX — это триллионная авантюра, связанная с будущим космоса.

IPO компании SpaceX — это триллионная авантюра, связанная с будущим космоса.

Это либо блестящая дорожка к звездам, либо финансовая черная дыра. Фрилансер Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все работы Джорджины Торбет Ракета-носитель…

Апр 23, 2026
Sceye завершает исторический 12-дневный полет в стратосфере дальностью 6 400 миль, продвигая новый уровень инфраструктуры для человечества

Sceye завершает исторический 12-дневный полет в стратосфере дальностью 6 400 миль, продвигая новый уровень инфраструктуры для человечества

Sceye, американская аэрокосмическая и материаловедческая компания, специализирующаяся на высотных платформенных системах (HAPS) для телекоммуникаций и мониторинга окружающей среды в режиме реального времени, объявила об успешном завершении своей программы Endurance, в ходе которой Sceye HAPS SE2 преодолел более…

Апр 23, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых