Image

Как xMemory сокращает затраты на токены и избыточность контекста в агентах ИИ

Бен Диксон

Организация контекста LLM

Источник изображения: VentureBeat с ChatGPT

Стандартные конвейеры RAG перестают работать, когда предприятия пытаются использовать их для долгосрочного развертывания агентов LLM с несколькими сессиями. Это критическое ограничение по мере роста спроса на постоянно работающих ИИ-помощников.

xMemory — новая технология, разработанная исследователями из Королевского колледжа Лондона и Института Алана Тьюринга, — решает эту проблему, организуя разговоры в иерархию семантических тем, по которой можно осуществлять поиск.

Эксперименты показывают, что xMemory улучшает качество ответов и логическое мышление в различных системах с длинной шкалой логики, одновременно снижая затраты на вывод. По словам исследователей, в некоторых задачах количество используемых токенов на запрос сокращается с более чем 9000 до примерно 4700 по сравнению с существующими системами.

Для реальных корпоративных приложений, таких как персонализированные ИИ-помощники и инструменты поддержки принятия решений в многосессионных ситуациях, это означает, что организации могут развертывать более надежные, контекстно-зависимые агенты, способные поддерживать согласованную долговременную память без резкого увеличения вычислительных затрат.

Компания RAG не была создана для этого.

Во многих корпоративных приложениях LLM критически важным ожиданием является сохранение согласованности и персонализации в течение длительных, многосессионных взаимодействий. Для поддержки этой долгосрочной перспективы одним из распространенных подходов является использование стандартного алгоритма RAG: сохранение прошлых диалогов и событий, извлечение фиксированного числа лучших совпадений на основе сходства встраивания и их объединение в контекстное окно для генерации ответов.

Однако традиционный алгоритм RAG предназначен для больших баз данных, где извлекаемые документы очень разнообразны. Главная проблема заключается в отфильтровке совершенно нерелевантной информации. Память агента ИИ, напротив, представляет собой ограниченный и непрерывный поток информации, а это значит, что хранимые фрагменты данных сильно коррелированы и часто содержат почти идентичные записи.

Чтобы понять, почему простое увеличение контекстного окна не работает, рассмотрим, как стандартный RAG обрабатывает такие понятия, как цитрусовые фрукты.

Представьте, что пользователь вел множество разговоров, в которых говорил что-то вроде «Я люблю апельсины», «Мне нравятся мандарины», а также отдельно обсуждал, что считается цитрусовыми фруктами. Традиционный алгоритм RAG может рассматривать все эти разговоры как семантически близкие и продолжать извлекать похожие фрагменты, относящиеся к цитрусовым.

«Если поиск сводится к выбору наиболее плотного кластера в пространстве вложений, агент может получить множество очень похожих фрагментов о предпочтениях, упуская при этом факты о категориях, необходимые для ответа на фактический запрос», — сказал соавтор статьи Лин Гуй в интервью VentureBeat.

Распространенным решением для инженерных групп является применение постобработки или сжатия для фильтрации шума. Эти методы предполагают, что извлеченные фрагменты текста очень разнообразны и что нерелевантные шумовые паттерны могут быть четко отделены от полезных фактов.

Этот подход неэффективен для памяти разговорных агентов, поскольку человеческий диалог «временно переплетен», пишут исследователи. Память разговора в значительной степени опирается на кореференцию, эллипсис и строгие временные зависимости. Из-за этой взаимосвязи традиционные инструменты удаления фрагментов часто случайно удаляют важные части разговора, оставляя ИИ без необходимого контекста для точного рассуждения.

Наивная RAG против структурированной памяти

Наивная RAG против структурированной памяти (источник: arXiv)

Почему решение, к которому прибегает большинство команд, только усугубляет ситуацию

Для преодоления этих ограничений исследователи предлагают изменить способ формирования и поиска информации в памяти агентов, что они описывают как «отделение от агрегации».

Вместо того чтобы напрямую сопоставлять запросы пользователей с необработанными, частично совпадающими логами чата, система организует разговор в иерархическую структуру. Сначала она разделяет поток разговора на отдельные, автономные семантические компоненты. Затем эти отдельные факты объединяются в структурную иерархию тем более высокого уровня.

Когда ИИ необходимо извлечь информацию, он осуществляет поиск сверху вниз по иерархии, переходя от тем к семантике и, наконец, к исходным фрагментам. Такой подход позволяет избежать избыточности. Если два фрагмента диалога имеют схожие векторные представления, система вряд ли сможет извлечь их вместе, если они были отнесены к разным семантическим компонентам.

Для успешной работы этой архитектуры необходимо сбалансировать два важнейших структурных свойства. Семантические компоненты должны быть достаточно дифференцированы, чтобы предотвратить извлечение ИИ избыточных данных. В то же время, агрегации более высокого уровня должны оставаться семантически верными исходному контексту, чтобы гарантировать, что модель сможет формировать точные ответы.

Четырехуровневая иерархия, которая уменьшает контекстное окно.

Исследователи разработали xMemory — фреймворк, который сочетает структурированное управление памятью с адаптивной нисходящей стратегией поиска.

xMemory непрерывно организует необработанный поток разговоров в структурированную четырехуровневую иерархию. В основании находятся исходные сообщения, которые сначала суммируются в смежные блоки, называемые «эпизодами». Из этих эпизодов система выделяет многократно используемые факты в виде семантики, которая отделяет основные, долгосрочные знания от повторяющихся записей чата. Наконец, связанная семантика группируется в высокоуровневые темы для облегчения поиска.

xmemory

Архитектура xMemory (источник: arXiv)

xMemory использует специальную целевую функцию для постоянной оптимизации группировки этих элементов. Это предотвращает чрезмерное разрастание категорий, замедляющее поиск, или чрезмерную фрагментацию, которая ослабляет способность модели собирать данные и отвечать на вопросы.

Получив запрос, xMemory выполняет поиск сверху вниз по этой иерархии. Он начинает с тематического и семантического уровней, выбирая разнообразный, компактный набор релевантных фактов. Это имеет решающее значение для реальных приложений, где запросы пользователей часто требуют сбора описаний по нескольким темам или объединения связанных фактов для сложных многошаговых рассуждений.

Получив этот высокоуровневый набор фактов, система контролирует избыточность с помощью того, что исследователи называют «фильтрацией неопределенности». Она переходит к извлечению более детальных, исходных данных на уровне эпизода или сообщения только в том случае, если эта конкретная деталь заметно снижает неопределенность модели.

«Семантическое сходство — это сигнал для генерации кандидатов; неопределенность — это сигнал для принятия решения», — сказал Гуи. «Сходство показывает, что находится поблизости. Неопределенность показывает, за что действительно стоит платить в рамках оперативного бюджета». Расширение модели прекращается, когда обнаруживается, что добавление дополнительных деталей больше не помогает ответить на вопрос.

Какие есть альтернативы?

Существующие системы памяти агентов, как правило, делятся на две структурные категории: плоские и структурированные. Обе страдают от фундаментальных ограничений.

Плоские подходы, такие как запись необработанных диалогов в MemGPT или минимально обработанные трассировки. Это позволяет зафиксировать разговор, но приводит к накоплению огромного количества избыточной информации и увеличению затрат на поиск по мере роста длины истории.

Структурированные системы, такие как A-MEM и MemoryOS, пытаются решить эту проблему, организуя память в иерархии или графы. Однако они по-прежнему полагаются на необработанный или минимально обработанный текст в качестве основной единицы поиска, часто используя обширные, раздутые контексты. Эти системы также в значительной степени зависят от записей памяти, сгенерированных LLM, которые имеют строгие ограничения схемы. Если ИИ немного отклонится от формата, это может привести к сбою памяти.

xMemory устраняет эти ограничения благодаря оптимизированной схеме построения памяти, иерархическому извлечению данных и динамической реструктуризации памяти по мере ее увеличения.

Когда использовать xMemory

Для корпоративных архитекторов крайне важно знать, когда следует переходить от стандартной архитектуры RAG к этой. По словам Гуи, «xMemory наиболее привлекательна там, где система должна оставаться согласованной в течение недель или месяцев взаимодействия».

Например, сотрудники службы поддержки клиентов получают большую выгоду от такого подхода, поскольку им необходимо запоминать устойчивые предпочтения пользователей, прошлые инциденты и контекст, специфичный для учетной записи, чтобы не приходилось постоянно открывать практически дублирующиеся заявки в службу поддержки. Персонализированное обучение — еще один идеальный вариант использования, требующий от ИИ отделения устойчивых характеристик пользователя от эпизодических, повседневных деталей.

И наоборот, если предприятие разрабатывает ИИ для взаимодействия с хранилищем файлов, таких как руководства по политике или техническая документация, «более простой стек RAG по-прежнему является лучшим инженерным решением», — сказал Гуи. В этих статических, ориентированных на документы сценариях корпус достаточно разнообразен, чтобы стандартный поиск ближайшего соседа работал отлично без операционных издержек, связанных с иерархической памятью.

Налог на ведение учета того стоит.

xMemory устраняет узкое место, связанное с задержкой при генерации окончательного ответа LLM. В стандартных системах RAG LLM вынужден считывать и обрабатывать раздутое контекстное окно, заполненное избыточным диалогом. Благодаря точному нисходящему извлечению данных в xMemory, создается гораздо меньшее, высокоцелевое контекстное окно, и читающий LLM тратит гораздо меньше вычислительного времени на анализ запроса и генерацию окончательного результата.

В своих экспериментах с задачами, требующими длительного контекста, как открытые, так и закрытые модели, оснащенные xMemory, превзошли другие базовые модели, используя значительно меньшее количество токенов и одновременно повышая точность выполнения задачи.

производительность памяти

xMemory повышает производительность в различных задачах, одновременно снижая затраты токенов (источник: arXiv).

Однако такое эффективное извлечение данных сопряжено с определенными затратами. Для корпоративного развертывания недостатком xMemory является то, что она обменивает огромные затраты на чтение на значительные затраты на запись. Хотя в конечном итоге это делает ответы на запросы пользователей быстрее и дешевле, поддержание ее сложной архитектуры требует существенной фоновой обработки.

В отличие от стандартных конвейеров RAG, которые дешево сохраняют необработанные текстовые вложения в базу данных, xMemory должен выполнять множество вспомогательных вызовов LLM для определения границ разговоров, обобщения эпизодов, извлечения долгосрочных семантических фактов и синтеза общих тем.

Кроме того, процесс реструктуризации xMemory добавляет дополнительные вычислительные требования, поскольку ИИ должен обрабатывать, связывать и обновлять свою собственную внутреннюю систему хранения данных. Для управления этой операционной сложностью в производственной среде команды могут выполнять эту трудоемкую реструктуризацию асинхронно или микропакетами, а не синхронно блокировать запрос пользователя.

Для разработчиков, стремящихся к созданию прототипов, код xMemory находится в открытом доступе на GitHub под лицензией MIT, что делает его пригодным для коммерческого использования. Если вы пытаетесь внедрить это в существующие инструменты оркестрации, такие как LangChain, Гуи советует сначала сосредоточиться на основной инновации: «Самое важное, что нужно создать в первую очередь, — это не более сложный механизм запроса на получение данных. Это слой декомпозиции памяти. Если вы сначала сделаете правильно только одну вещь, пусть это будет логика индексирования и декомпозиции».

Извлечение данных — не последнее узкое место.

Хотя xMemory предлагает мощное решение для преодоления существующих сегодня ограничений контекстного окна, оно открывает путь для решения задач следующего поколения в рабочих процессах с участием агентов. Поскольку взаимодействие агентов ИИ будет длиться дольше, простого поиска нужной информации будет недостаточно.

«Извлечение данных является узким местом, но как только процесс извлечения улучшается, эти системы быстро сталкиваются с проблемами управления жизненным циклом и управления памятью», — сказал Гуи. Он добавил, что именно в решении вопросов утилизации данных, обеспечении конфиденциальности пользователей и поддержании общей памяти для нескольких агентов «я ожидаю, что большая часть следующей волны работы будет посвящена именно этому».

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: xMemory, Агенты ИИ, Избыточность, Как, Контекст, новости, Токены

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Интерфейс управления командой агентов для исследования тем Reddit, веба и Twitter.
Карта Эквадора на фоне Земли, проигрывается Radio Complice FM.
Программное окно Dangerzone, выбор и сохранение безопасных PDF-документов.
ideipro logotyp
Интерфейс Sentry с описанием ошибок и деталями инцидента для macOS.
Карта Германии с маршрутом, указателями и видом на сельскую местность рядом с Штраленом.
Веб-дизайн с графиками и изображениями: апельсины, диаграммы, кот с бокалом.
ideipro logotyp
ideipro logotyp
Image Not Found
ideipro logotyp

В Южной Корее разработали лёгкую роборуку с человеческой ловкостью

Современные роботы обладают уже достаточно высоким уровнем интеллекта, засчёт ИИ или машинного обучения. Однако их руки по-прежнему ограничены в выполнении повседневных задач. Южнокорейская компания Tesollo стремится решить эту проблему как для дроидов так и для людей с…

Апр 2, 2026
Процессор AMD Ryzen 5 8400F, крупный план, марка, серийный номер, маркировка Made in Malaysia.

Покупатель подержанного стокового кулера AMD получил в подарок Ryzen 5 8400F

Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

Апр 1, 2026
Процессор AMD Ryzen 5 8400F в руке, видна маркировка и детали корпуса.

Подержанный стоковый кулер для платформы AMD AM4: удивительная подарковая история

Просторы ресурса Reddit, судя по всему, бесконечны, ведь что ни день, то получается найти на них интересные моменты, так или иначе связанные с компьютерными комплектующими. Например, в одном из прошлых материалов рассказывалось о покупке комплекта оперативной памяти…

Апр 1, 2026
Плата с температурными измерениями и графиком люминесценции для научного анализа.

Светящиеся наночастицы помогут определять температуру работающих микрочипов

Реализация метода люминесцентной термометрии в микроэлектронике © Ilya E. Kolesnikov et al / Applied Materials Today, 2026 Ученые разработали бесконтактный способ измерения температуры микроэлектронных устройств, основанный на способности «термометра» менять свое свечение при нагреве. Авторы использовали наночастицы,…

Апр 1, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых