Meta совершила революцию в ИИ и представила RAG 2.0
Исследователи научились ускорять LLM в 30 (!!!) раз и обрабатывать в 16 раз больше контекста без потери точности.
• Основная проблема: увеличение длины документа в 2 раза замедляет работу ИИ в 4 раза. ИИ внимательно читает каждое слово, теряя много времени и ресурсов.
• Новый фреймворк REFRAG решает эту проблему:
1. Кодировщик считывает полученный документ и сжимает каждый фрагмент текста из 16 токенов в единый плотный вектор (chunk embedding). При этом все важные данные не сжимаются.
2. Основной LLM съедает эти эмбеддинги вместо исходных токенов и уменьшает объём контекста аж в 16 раз.
3. Фреймворк минимизирует ненужные вычисления (квадратичное внимание и кэш значений) и ускоряет первый ответ в 30 раз, а всю обработку — в 7 раз.
• REFRAG уже протестировали в RAG — новая система превосходит даже LLaMA и ведущие модели, сохраняя точность.
Работу можно почитать здесь, а исходный код скоро выйдет на GitHub.
Meta запрещена в России.























