🌟 Одна из главных проблем agentic AI — стоимость длинных…
🌟 Одна из главных проблем agentic AI — стоимость длинных циклов работы. Каждый новый шаг агента тащит за собой весь предыдущий контекст, из-за чего расход токенов растёт не линейно, а почти квадратично.
В статье показали несколько способов, как это сокращают:
— recursive summarization вместо хранения полной истории;
— distilled system prompts с короткими инструкциями;
— RAG-память через vector DB;
— LLMLingua для удаления “мусорных” токенов.
➡️ Пример из статьи:
обычный prompt на 42 токена сократили до 12 без потери смысла, а summarization уменьшил общий контекст со 109 до 36 токенов.
Сейчас индустрия постепенно приходит к тому, что memory management становится не менее важным, чем сами модели. Потому что при масштабных agent loops стоимость контекста начинает убивать inference быстрее, чем качество модели помогает.
❓ Как думаешь, будущее AI-агентов — это большие context windows или агрессивное сжатие памяти?


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.