Дополнение параметра в 0,12% предоставляет агентам ИИ рабочую память, недоступную RAG.
Бен Диксон

Агенты ИИ забывают. Каждый раз, когда помощник по программированию теряет из виду поток отладки или агент анализа данных повторно обрабатывает тот же контекст, что и раньше, команда расплачивается за это задержкой, затратами на токены и ненадежными рабочими процессами. Решение, к которому прибегает большинство команд — расширение контекстного окна или добавление большего количества RAG — становится все более дорогостоящим и по-прежнему не обеспечивает надежной работы.
Для решения этой проблемы исследователи из Mind Lab и нескольких университетов предложили delta-mem — эффективную методику, которая сжимает историческую информацию модели в динамически обновляемую матрицу без изменения самой модели. Полученный модуль добавляет всего 0,12% параметров базовой модели — по сравнению с 76,40% у одного из ведущих альтернативных вариантов — и превосходит его по производительности в тестах, требующих большого объема памяти. Delta-mem позволяет моделям непрерывно накапливать и повторно использовать исторические данные, уменьшая зависимость от больших контекстных окон или сложных внешних модулей поиска для обеспечения непрерывности поведения.
Задача на долгую память
Традиционное решение заключается в том, чтобы просто выгрузить всю информацию в контекстное окно модели.
Однако, как рассказал VentureBeat соавтор статьи Цзинди Лей, современные системы рассматривают память лишь как проблему управления контекстом. «Либо мы постоянно расширяем контекстное окно, либо извлекаем больше документов с помощью RAG», — объяснил Лей. «Эти подходы полезны и останутся важными, но они становятся все более дорогостоящими и ненадежными, когда агентам необходимо работать с длительными, многоэтапными взаимодействиями, и они на самом деле не работают как человеческая память, поскольку больше похожи на поиск документов».
В корпоративных условиях узким местом является не только доступ модели к истории, но и ее способность эффективно, непрерывно и с низкой задержкой повторно использовать эту историю. Стандартные механизмы внимания приводят к квадратичной зависимости вычислительных затрат от длины последовательности. Кроме того, расширение контекстного окна не гарантирует эффективного извлечения информации моделью. Модели часто страдают от деградации или «разложения» контекста, поскольку они перегружены большим количеством (и часто противоречивой) информации, даже если теоретически они поддерживают миллион токенов.
Исследователи выступают за усовершенствованные механизмы памяти, способные компактно представлять историческую информацию и динамически поддерживать её в процессе взаимодействия. Существующие решения сопряжены со значительными компромиссами и, как правило, делятся на три парадигмы:
-
Текстовая память: хранит историю в виде текста, вставленного в контекст — ограничена размерами окна и подвержена потере информации при сжатии.
-
Внешние каналы (RAG): кодирование и извлечение данных из внешних модулей — увеличивает задержку, сложность интеграции и потенциальное несоответствие с магистральной сетью.
-
Параметрический подход: кодирует память в веса модели с помощью адаптеров — остаются статическими после обучения и не могут адаптироваться к новой информации во время взаимодействия в реальном времени.
Внутри дельта-мема
Для достижения компактной и динамически обновляемой памяти дельта-память сжимает прошлые взаимодействия агента в «онлайн-состояние ассоциативной памяти» (OSAM). Это состояние поддерживается в виде матрицы фиксированного размера, которая сохраняет историческую информацию, в то время как базовая языковая модель остается неизменной.
Для корпоративных рабочих процессов это напрямую означает устранение операционных узких мест. Лей отметил, что, например, постоянно работающему помощнику по кодированию «может потребоваться запоминать соглашения проекта, последние шаги отладки, пользовательские предпочтения или промежуточные решения в рамках рабочего процесса». Аналогично, агенту анализа данных может «потребоваться поддерживать состояние задачи, предположения и предыдущие наблюдения при итерации по нескольким вызовам инструментов».

Вместо многократного извлечения и повторной вставки всей соответствующей истории для этих задач, матрица дельта-памяти предоставляет малозатратный способ переноса полезных состояний взаимодействия в прямое вычисление модели.
В процессе генерации система не извлекает необработанные текстовые сегменты для добавления к подсказке. Вместо этого текущее скрытое состояние базовой модели LLM проецируется в матрицу для извлечения старой памяти. Эта операция извлекает из дельта-памяти сигналы ассоциативной памяти, имеющие отношение к контексту. Затем эти сигналы преобразуются в числовые поправки, которые применяются к вычислениям модели. Это направляет рассуждения модели во время вывода без изменения ее внутренних параметров.
После каждого взаимодействия delta-mem обновляет онлайн-состояние, используя «обучение по правилу дельта». Когда поступает новая информация, предыдущее состояние делает прогноз относительно результирующих значений внимания. Затем оно сравнивает этот прогноз с фактическим значением и корректирует матрицу памяти на основе расхождения.
Этот механизм обновления основан на «правиле дельта-изменения с управляющим воздействием». По сути, модуль памяти имеет различные регуляторы, которые управляют тем, сколько предыдущей памяти сохраняется и сколько новой памяти используется. Эта коррекция ошибок с контролируемым забыванием позволяет матрице эволюционировать с течением времени, сохраняя стабильные исторические ассоциации и не подвергаясь влиянию кратковременного шума.
Исследователи изучили три стратегии определения того, когда и как обновляется матрица:
-
Запись состояния токена позволяет фиксировать точные изменения, но уязвима для кратковременных помех.
-
Функция усреднения записи состояния последовательности (Sequence-state write averages) усредняет токены внутри сегмента сообщения, сглаживая обновления за счет потери некоторых локальных деталей.
-
Многостадийная запись разбивает память на подсостояния для различных типов информации, таких как факты или ход выполнения задачи.
Дельта-член в действии
Исследователи оценили возможности delta-mem на трех платформах LLM: Qwen3-8B, Qwen3-4B-Instruct и SmolLM3-3B. Они сконфигурировали систему с компактной матрицей 8×8. Система была протестирована на общих бенчмарках, включая HotpotQA, GPQA-Diamond и IFEval. Также она была оценена на задачах, требующих большого объема памяти, таких как LoCoMo, тестирующая долговременную разговорную память, и Memory Agent Bench, оценивающая сохранение, извлечение, избирательное забывание и обучение во время тестирования в течение длительных взаимодействий.
Предложенная структура была сопоставлена с репрезентативными моделями из трех существующих парадигм памяти: базовыми моделями текстовой памяти (например, BM25 RAG, LLMLingua-2 и MemoryBank), параметрическими системами (Context2LoRA и MemGen) и подходом MLP Memory, основанным на использовании внешних каналов.

По данным исследователей, в целом, delta-mem превзошла базовые модели. На архитектуре Qwen3-4B-Instruct вариант записи состояния токена достиг среднего показателя в 51,66%, легко превзойдя стандартную архитектуру с показателем 46,79% и самую сильную базовую модель Context2LoRA с показателем 44,90%. В ресурсоемком тесте Memory Agent Bench средний показатель вырос с 29,54% до 38,85%. Производительность в конкретной подзадаче обучения во время тестирования увеличилась почти вдвое — с 26,14% до 50,50%.
Однако наиболее убедительными выводами являются операционная эффективность системы. Исследователи протестировали систему в условиях отсутствия контекста, когда исторический текст был полностью удален из контекста. Даже без явного воспроизведения текста delta-mem успешно восстанавливала контекстно-релевантные данные в задачах с несколькими шагами. Исследователи утверждают, что модель запоминает прошлые взаимодействия, не требуя обработки огромного количества подсказок.
В этой системе также добавлено всего 4,87 миллиона обучаемых параметров, что составляет лишь 0,12% от базовой модели Qwen3-4B-Instruct. Для сравнения, базовая модель MLP Memory требовала 3 миллиарда параметров, что составляло 76,40% от размера базовой модели, но при этом давала худшие результаты. Когда длина подсказок увеличивалась до 32 000 токенов во время тестов вывода, система сохраняла практически тот же объем памяти GPU, что и стандартная, неизмененная модель. Она избегает чрезмерного раздувания памяти, характерного для других передовых систем памяти, таких как MemGen и MLP Memory.
Различные стратегии обновления оказались более эффективными в зависимости от емкости базовой модели. Стратегия записи по последовательности состояний оказалась наиболее эффективной для более мощных базовых платформ, таких как Qwen3-8B. Эти более производительные модели используют запись на уровне сегментов для сглаживания обновлений и уменьшения шума на уровне токенов. И наоборот, стратегия многосостоятельной записи обеспечила значительный скачок производительности для более компактных базовых платформ, таких как SmolLM3-3B. Для этих моделей с меньшей емкостью разделение памяти на несколько состояний оказалось критически важным для минимизации информационных помех.
Внедрение delta-mem в корпоративную архитектуру.
Исследователи опубликовали код delta-mem на GitHub, а веса для обученных адаптеров — на Hugging Face. Для команд разработчиков ИИ, желающих интегрировать эту структуру в свой существующий стек обработки данных, этот процесс потребует минимальных вычислительных ресурсов.
«На практике команда инженеров начинает с существующей, оптимизированной для инструкций архитектуры, подключает модули адаптера Delta-Mem к выбранным слоям внимания, обучает параметры адаптера только на данных, относящихся к предметной области, — многоходовых диалогах или данных с длинным контекстом… — а затем запускает вывод с обновлением состояния памяти в режиме реального времени во время взаимодействия», — сказал Лей. Крайне важно, что командам не требуется огромный корпус для предварительного обучения. Обучающие данные должны лишь отражать целевое поведение памяти, такое как многоходовые диалоги, траектории агентов или рабочие процессы в предметной области, где более ранняя информация должна влиять на последующие решения.
Хотя сжатие истории взаимодействий в математическую матрицу фиксированного размера обеспечивает огромную эффективность, оно сопряжено с компромиссами. Delta-mem не является заменой явным текстовым журналам или поиску документов без потери данных. Поскольку различные фрагменты информации конкурируют внутри одного и того же ограниченного состояния, существует риск смешивания памяти.
«Delta-Mem полезен, когда системе требуется быстрое, оперативное и постоянно обновляемое поведенческое состояние», — сказал Лей. «RAG лучше подходит, когда системе требуется точное воспроизведение фактов, цитирование, соответствие требованиям, возможность аудита или доступ к большой внешней базе знаний». Запоминание стиля работы пользователя или многоэтапной траектории рассуждений идеально подходит для delta-mem, в то время как поиск юридического контракта или медицинских рекомендаций должен оставаться в векторной базе данных.
Это означает, что наиболее реалистичной архитектурой предприятия в будущем является гибридный подход. Delta-mem выступает в качестве легковесной внутренней рабочей памяти, уменьшая необходимость постоянного извлечения или воспроизведения всего содержимого, в то время как RAG служит явным, высокопроизводительным уровнем памяти.
«Заглядывая в будущее, я не думаю, что векторные базы данных устареют», — сказал Лей. «Вместо этого я ожидаю, что корпоративные стеки ИИ станут более многоуровневыми. Вероятно, мы увидим кратковременную рабочую память внутри модели, долговременную явную память в системах поиска и уровни политик или аудита, которые будут определять, что должно храниться, извлекаться, забываться или предоставляться пользователю».
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.