Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Модель памяти MeMo позволяет командам повышать уровень своей LLM без переобучения — и производительность возрастает на 26%.

Бен Диксон

Опубликовано

Обновлено

модуль памяти LLM

Источник изображения: VentureBeat с ChatGPT

Обеспечение возможности приобретения студентами магистратуры новых знаний после обучения остается серьезной проблемой для корпоративного ИИ — существующие решения либо слишком дороги, либо слишком медленны, либо ограничены рамками контекстного окна.

MeMo — это разработанная исследователями из нескольких университетов платформа, которая кодирует новые знания в специальную, меньшую по размеру модель памяти, работающую отдельно от основной модели LLM.

Модульная архитектура работает как с моделями с открытым, так и с закрытым исходным кодом и позволяет избежать сложностей, связанных с конвейерами RAG и полной переобучением моделей.

Эксперименты показывают, что MeMo надежно обрабатывает сложные запросы даже при наличии шума в конвейерах поиска. Это позволяет избежать катастрофического забывания, связанного с прямой тонкой настройкой, и обеспечивает экономически эффективный путь для непрерывного обновления знаний.

Проблема обновления памяти LLM

Крупные языковые модели после обучения «замораживаются», и их внутренние знания остаются неизменными до тех пор, пока не будут подвергнуты последующим, чрезвычайно трудоемким с вычислительной точки зрения обновлениям.

структуры памяти

Сравнение различных фреймворков памяти LLM (источник: arXiv)

В настоящее время разработчики используют три основных подхода для интеграции внешних знаний в магистерскую программу, каждый из которых имеет свои недостатки:

Непараметрические методы , такие как генерация с расширенным поиском (RAG) и контекстное обучение , извлекают релевантные документы из внешней базы данных и вставляют их непосредственно в подсказку модели. Хотя эти методы популярны, они ограничены размерами контекстных окон.

Как рассказал VentureBeat Армандо Солар-Лезама, соавтор статьи: «Векторные базы данных сталкиваются с принципиально сложной задачей кодирования полной семантики фрагмента текста в одном векторе, а затем сопоставления этого вектора с запросом, даже если релевантность фрагмента… может быть очевидна только в контексте других фрагментов».

Исследователи отмечают, что семантическое сходство векторных представлений часто не соответствует тому, что на самом деле требуется пользователю в его запросе. Обработка тысяч полученных токенов также создает значительные вычислительные издержки и задержку при выводе. Наиболее проблематичным является то, что системы RAG очень чувствительны к шуму. Нерелевантные или плохо полученные фрагменты текста часто ухудшают конечный результат работы модели.

Параметрические методы , такие как непрерывное предварительное обучение или контролируемая тонкая настройка, пытаются внедрить новые знания непосредственно в веса модели LLM. Обновление современных, масштабных моделей LLM обходится непомерно дорого и, как правило, невозможно для проприетарных моделей с закрытым исходным кодом, скрытых за API. Тонкая настройка также склонна к катастрофическому забыванию . Принудительная адаптация модели к новым корпоративным данным часто подрывает ее ранее приобретенные возможности рассуждения и механизмы безопасности.

Методы скрытой памяти , такие как сжатие контекста, предлагают промежуточный вариант. Они сжимают знания в компактные «мягкие токены» или представления, которые добавляются к контексту модели во время вывода. Главный недостаток здесь — «связь представлений». Сжатая память строго привязана к архитектуре модели, которая её создала; невозможно перенести скрытую память, обученную на модели с открытым исходным кодом, на модель с закрытым исходным кодом.

Как работает MeMo

Фреймворк MeMo (Memory as a Model) представляет собой модульную архитектуру, состоящую из двух отдельных компонентов. Модель MEMORY — это небольшая языковая модель, специально обученная для кодирования новых знаний в свои параметры. Модель EXECUTIVE — это замороженная, готовая языковая модель, которая функционирует как механизм рассуждений. Когда пользователь задает вопрос, модель EXECUTIVE рассматривает модель MEMORY как внешний оракул, отправляя целевые подзапросы для сбора фактов и синтезируя эти факты в окончательный ответ.

Основной принцип проектирования MeMo — это концепция «отражения». Отражения — это целевые пары «вопрос-ответ», предназначенные для охвата всех возможных аспектов корпуса знаний. Вместо того чтобы заставлять ИИ обрабатывать огромный неструктурированный корпус документов во время обучения, MeMo использует модель GENERATOR для преобразования исходного текста в тысячи целевых пар «вопрос-ответ». Затем модель MEMORY дорабатывается на этом наборе данных, чтобы отвечать на вопросы, используя только свои параметрические знания, без необходимости чтения полученного контекста.

фреймворк MeMo

Фреймворк MeMo (источник: arXiv)

На этапе вывода результатов взаимодействие между двумя моделями осуществляется в соответствии со структурированным трехэтапным протоколом:

1. Модель EXECUTIVE разлагает сложный запрос пользователя на набор атомарных подвопросов. Модель MEMORY отвечает на каждый из них независимо, устанавливая основные факты.

2. Используя эти первоначальные подсказки, модель EXECUTIVE отправляет дополнительные запросы, чтобы сузить круг потенциальных объектов до тех пор, пока не будет уверена в достижении конкретной цели.

3. Наконец, модель EXECUTIVE запрашивает у модели MEMORY подтверждающие факты о целевом объекте и синтезирует полученные фрагменты в связный ответ.

Эта архитектура объединяет сильные стороны трех существующих парадигм памяти ИИ, избегая при этом их недостатков. Она использует готовые модели, сохраняя хранение данных в памяти отдельным от процесса рассуждений, гарантируя совместимость как с моделями с открытыми весами, так и с моделями с закрытым API. Она напрямую интегрирует знания в параметры, но изолирует обновления в меньшей, выделенной модели MEMORY для защиты механизма рассуждений. Наконец, она создает доступный для запросов артефакт памяти, не привязанный к какой-либо конкретной модели и который может использоваться с различными семействами LLM.

Обеспечение непрерывного обновления знаний

Управление памятью ИИ требует постоянных обновлений по мере изменения политики компании и публикации новых отчетов. Обычно обновление параметров модели требует ее переобучения с нуля на основе как старых, так и новых данных. По мере роста базы знаний эти совокупные затраты на переобучение становятся непосильными.

Для эффективной обработки непрерывных обновлений MeMo использует метод, называемый «слиянием моделей». Вместо масштабной фазы совместного переобучения, MeMo обучает новую, независимую модель MEMORY исключительно на вновь добавленных документах. Система формирует «вектор задачи», представляющий изменения параметров, полученные на основе новых данных. Затем эти обновления математически объединяются в веса исходной модели MEMORY.

Такой подход сокращает количество вычислительных часов, необходимых для поддержания системы в актуальном состоянии, и позволяет избежать помех, вызывающих катастрофическое забывание.

Эта эффективность достигается ценой компромисса: объединение моделей приводит к снижению точности на 11–19% по сравнению с полной переобучением, в зависимости от используемой модели рассуждений.

MeMo в действии

Для оценки эффективности в реальных условиях исследовательская группа сравнила MeMo с несколькими отраслевыми стандартами, требующими сложного многоэтапного анализа данных в нескольких документах.

Исследователи использовали Qwen2.5-32B-Instruct в качестве модели GENERATOR для преобразования необработанного текста в отражения. В качестве основной модели MEMORY они использовали Qwen2.5-14B-Instruct. Они также проверили этот подход на моделях с меньшим количеством параметров (1-2 миллиарда) на различных архитектурах, включая Gemma3-1B.

Для модели мышления EXECUTIVE они протестировали как систему Qwen2.5-32B с открытым исходным кодом, так и проприетарную систему Google Gemini 3 Flash.

Они сравнили MeMo с верхним пределом «идеального поиска» (когда вручную предоставляются абсолютно правильные документы) и несколькими передовыми системами поиска, включая традиционный поиск BM25, поиск с плотными векторами и современную графовую систему RAG (HippoRAG2). Они также протестировали «картриджи» — новый метод, который загружает обученный KV-кэш в модель во время вывода.

Производительность MeMo

Производительность MeMo по отраслевым эталонным показателям в сравнении с другими базовыми моделями (источник: arXiv)

MeMo показал лучшие результаты в анализе длинных документов. По данным исследователей, в бенчмарке NarrativeQA MeMo в паре с Gemini 3 Flash достиг точности 53,58%. HippoRAG2 показал максимальный результат в 23,21%.

Корпоративным системам часто приходится синтезировать сложные ответы, например, преодолевать пересекающиеся нормативные рамки, независимо разработанные различными органами, или объединять информацию из огромного объема кода и внешней документации. Традиционные системы RAG здесь терпят неудачу, поскольку они достигают пределов контекстного окна и не могут связать концепции, охватывающие сотни страниц. MeMo преуспевает, потому что эти связи отображаются и усваиваются внутри модели MEMORY во время обучения. Это «как иметь своего собственного Малкольма Гладуэлла, который может связать историю The Beatles с историей Билла Гейтса, чтобы выдвинуть аргумент о природе экспертных знаний», — сказал Солар-Лезама.

Эксперименты выявили еще одно важное преимущество: обновление механизма логического мышления не требует переобучения. Простая замена модели EXECUTIVE с открытого исходного кода Qwen на проприетарную Gemini 3 Flash повысила производительность MeMo на 26,73% в NarrativeQA и на 11,90% в бенчмарке MuSiQue. Для специалистов это означает, что можно безопасно обучать модель MEMORY на собственных данных и мгновенно подключать ее к новейшим коммерческим API, постоянно повышая интеллектуальные возможности системы без дополнительных затрат на обучение.

Исследовательская группа описала интеграцию как не требующую дополнительной настройки: «Базовая (или исполнительная) модель LLM, которую команды уже используют в RAG, может быть настроена для прямого запроса к модели памяти. Эти запросы выполняются на естественном языке, аналогично отправке запроса сообщения в API, без необходимости дополнительной настройки».

MeMo также исключительно хорошо справляется с зашумленными данными. Когда исследователи намеренно заполнили набор данных нерелевантными документами (до двух раз больше полезной информации), производительность HippoRAG2 упала на 11,55%. Производительность MeMo оставалась относительно стабильной, снизившись менее чем на 2%. Корпоративные базы знаний обычно неорганизованы, заполнены дублирующимися документами и устаревшими политиками. Стандартные системы RAG с трудом справляются с этим шумом, добавляя в запрос некорректные абзацы и вызывая искажения. Поскольку модель EXECUTIVE в MeMo взаимодействует с синтезированным оракулом, а не с необработанными фрагментами документов, она остается очень устойчивой к неорганизованным корпоративным данным.

Ограничения и компромиссы

Для инженерных групп, планирующих внедрить MeMo, существует ряд ключевых ограничений, которые необходимо учитывать.

В отличие от традиционных систем RAG, которые быстро индексируют необработанные документы в векторную базу данных, MeMo требует первоначальных затрат на обучение для каждого нового корпуса. Конвейер генерации данных, используемый для синтеза обучающих рефлексий, является вычислительно затратным. Например, команда отметила, что «генерация полного набора данных рефлексий QA заняла приблизительно 240 часов работы графического процессора на NVIDIA H200», в то время как обучение модели MEMORY с 14 миллиардами параметров «заняло приблизительно 180 часов работы графического процессора H200». Как сказал Солар-Лезама: «Снижение стоимости обучения является одной из наиболее важных открытых исследовательских задач для того, чтобы сделать эту технологию востребованной».

Поскольку модель MEMORY представляет собой нейронную сеть фиксированного размера, ее способность к усвоению знаний ограничена ее репрезентативной емкостью. Хотя исследователи не достигли жесткого предела в ходе сравнительного анализа, они предполагают, что «достаточно большие или информационно насыщенные корпуса превзойдут возможности модели MEMORY фиксированного размера по правильному сжатию и представлению данных».

Наконец, поскольку MeMo синтезирует ответы из параметрической памяти, а не извлекает точные фрагменты текста, это скрывает происхождение информации. Это затрудняет установление связи конкретных утверждений с исходными документами, что представляет собой критическую проблему соответствия требованиям для корпоративных приложений, требующих строгих журналов аудита.

Выбор между MeMo и традиционным RAG сводится к эвристическому принципу «поиск против синтеза», а также к изменчивости данных. Исследователи советуют, что «традиционный RAG предпочтительнее, когда ответы находятся в одном документе или когда есть четко определенный источник… MeMo предпочтительнее, когда задача смещается от поиска к синтезу ответа из информации, разбросанной по нескольким фрагментам». Если ваш корпус знаний быстро меняется (например, ежедневные обновления) и вам требуются точные ссылки на источники, RAG остается лучшим вариантом из-за первоначальных затрат на обучение MeMo. Если ваш корпус состоит из обобщенных знаний предметной области, которые медленно развиваются относительно своего объема, MeMo предлагает значительно более эффективные методы рассуждения. Команды также могут использовать гибридную архитектуру маршрутизации в производственной среде: отправлять запросы на «поиск» в стандартную векторную базу данных и запросы на «синтез» в модель MEMORY.

«Если заглянуть в будущее, я ожидаю, что модели памяти станут стандартным архитектурным компонентом наряду с механизмами поиска данных, — сказала VentureBeat Даниэла Рус, соавтор статьи и директор Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL), — точно так же, как кэширование и индексирование являются стандартными компонентами любой серьезной системы обработки данных сегодня».

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Memo, Командам, Модель, новости, Памяти, Позволяет

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: В своей первой энциклике Лев критикует технологический мессианизм. Архив рубрики ~Лента новостей~: В эти выходные вышли два самых кассовых фильма, режиссерами которых выступили ютуберы. Архив рубрики ~Лента новостей~: Vibe Coding XR: Ускорение прототипирования с использованием ИИ и XR с помощью XR Blocks и Gemini Архив рубрики ~Лента новостей~: Альтман против Паркинсона Архив рубрики ~Лента новостей~: Дизайнеры и верстальщики точно ВСЁ? Google выкатил Pomelli Agent для создания сайтов и брендбуков в пару кликов Архив рубрики ~Лента новостей~: За кулисами «ANCESTRA»: сочетание Veo и съемок игрового кино. Архив рубрики ~Лента новостей~: Приручаем недетерминизм агентных систем Архив рубрики ~Лента новостей~: Ускоренный протокол CART-терапии испытали для лечения множественной миеломы. Ответ на него наблюдался у 98 процентов пациентов