ReasoningBank: Дает агентам возможность учиться на собственном опыте.
ReasoningBank — это инновационная платформа для работы с памятью агентов, которая использует успешный и неудачный опыт для выведения обобщаемых стратегий рассуждения, позволяя агенту непрерывно учиться на собственном опыте после развертывания.
Быстрые ссылки
- Бумага
- Код ReasoningBank
- Делиться
Агенты играют все более важную роль в решении сложных задач реального мира, от общей навигации по веб-сайтам до помощи в работе с обширными кодовыми базами программного обеспечения. Однако, по мере того как эти агенты переходят к постоянным, долгосрочным ролям в реальном мире, они сталкиваются с серьезным ограничением: им трудно анализировать и извлекать уроки из успешного и неудачного опыта после развертывания.
Агенты, подходящие к каждой новой задаче без механизма памяти, будут неоднократно совершать одни и те же стратегические ошибки и упускать ценные идеи. Для решения этой проблемы были введены различные формы памяти агентов, позволяющие хранить информацию о прошлых взаимодействиях для повторного использования. Однако существующие методы, как правило, сосредоточены на сохранении исчерпывающих записей каждого предпринятого действия — например, память траекторий, используемая в Synapse, — или только на документировании рабочих процессов, обобщенных по успешным попыткам (как показано в Agent Workflow Memory). Эти подходы имеют два фундаментальных недостатка: во-первых, регистрируя подробные действия вместо тактического прогнозирования, они не позволяют выявить высокоуровневые, переносимые модели рассуждений; во-вторых, чрезмерно акцентируя внимание на успешном опыте, они упускают из виду основной источник обучения — собственные неудачи.
Чтобы восполнить этот пробел, в нашей статье на ICLR «ReasoningBank: масштабирование саморазвития агентов с помощью памяти для рассуждений» мы представляем новую структуру памяти для агентов (github), которая извлекает полезные выводы как из успешного, так и из неудачного опыта для саморазвития во время тестирования. При оценке на тестовых примерах веб-браузинга и разработки программного обеспечения ReasoningBank повышает как эффективность агентов (более высокие показатели успешности), так и производительность (меньшее количество шагов задачи) по сравнению с базовыми подходами.
Сравнение содержимого памяти: существующие стратегии и ReasoningBank.
Анализ данных с помощью ReasoningBank
ReasoningBank преобразует глобальные модели рассуждений в высокоуровневые структурированные блоки памяти. Каждый элемент структурированной памяти содержит следующее:
- Заголовок : Краткое описание основной стратегии.
- Описание : Краткое изложение запоминаемого элемента.
- Содержание : Сведенные воедино этапы рассуждений, обоснования решений или оперативные выводы, полученные на основе прошлого опыта.
Процесс работы с памятью осуществляется в непрерывном замкнутом цикле извлечения, расшифровки и консолидации. Перед выполнением действия агент использует ReasoningBank для сбора релевантных воспоминаний в контексте. Затем он взаимодействует с окружающей средой и использует LLM-в качестве эксперта для самооценки результирующей траектории и извлечения выводов об успехе или неудаче. Важно отметить, что эта самооценка не обязательно должна быть идеально точной, поскольку, как мы обнаружили, ReasoningBank достаточно устойчив к шуму в оценках. В процессе расшифровки агент выделяет рабочие процессы и обобщаемые выводы из траектории в новые воспоминания. Для простоты мы напрямую добавляем их в ReasoningBank, оставляя более сложные стратегии консолидации для будущих исследований.
Важно отметить, что в отличие от существующих стратегий запоминания рабочих процессов, которые фокусируются только на успешных запусках, ReasoningBank активно анализирует неудачные попытки, чтобы выявлять контрфактические сигналы и подводные камни. Преобразуя эти ошибки в уроки для предотвращения ошибок, ReasoningBank создает мощные стратегические механизмы защиты. Например, вместо простого изучения процедурного правила, такого как «нажмите кнопку „Загрузить еще“», агент может извлечь урок из прошлой неудачи и научиться «всегда сначала проверять идентификатор текущей страницы, чтобы избежать ловушек бесконечной прокрутки, прежде чем пытаться загрузить дополнительные результаты».
Рабочий процесс ReasoningBank, интегрированный с агентом во время тестирования.
Масштабирование времени тестирования с учетом объема памяти (MaTTS)
Масштабирование вычислений во время тестирования (TTS) — масштабирование вычислений во время вывода — продемонстрировало огромную эффективность в таких областях рассуждений, как математика и соревновательное программирование. Однако в агентных средах существующие методы TTS часто игнорируют траекторию исследования и рассматривают конечный ответ как единственный полезный результат. Это упущенное из виду исследование на самом деле является богатым источником данных, который мог бы ускорить способность агента учиться на опыте с течением времени.
Мы преодолеваем этот разрыв, явно связывая память с масштабированием посредством масштабирования во время тестирования с учетом памяти (MaTTS). Используя ReasoningBank в качестве мощного алгоритма обучения на основе опыта, MaTTS преобразует обширное исследование в высококачественные данные памяти с помощью контрастных и уточняющих сигналов. Мы демонстрируем возможности функций MaTTS на примере двух различных форм масштабирования:
- Параллельное масштабирование : агент генерирует несколько различных траекторий для одного и того же запроса, руководствуясь памятью. С помощью самоконтраста ReasoningBank сравнивает успешные и ошибочно обоснованные траектории, чтобы выявить более надежные стратегии и синтезировать более качественную память.
- Последовательное масштабирование : Агент итеративно уточняет рассуждения в рамках одной траектории, чтобы получить убедительные промежуточные обоснования. ReasoningBank фиксирует эти промежуточные выводы, полученные в результате проб и ошибок агента и его постепенного улучшения, в виде высококачественных элементов памяти.
MaTTS создает мощную синергию: высококачественная память из ReasoningBank направляет масштабированное исследование к более перспективным стратегиям, а в свою очередь, масштабированные взаимодействия генерируют значительно более богатые сигналы обучения, которые поступают обратно в еще более интеллектуальный ReasoningBank, помогая агенту.
Сравнение масштабирования времени тестирования с учетом объема памяти (MaTTS) с ReasoningBank.
Производительность и новые возможности
Мы оценили ReasoningBank на сложных тестовых задачах, охватывающих динамические среды. Используя стратегию подсказок ReAct в качестве основы для всех агентов, мы сравнили ReasoningBank с тремя конфигурациями памяти: базовой конфигурацией без памяти (Vanilla ReAct), Synapse (память траектории) и AWM (память рабочего процесса). На основе основных результатов оценки с использованием Gemini-2.5-Flash на WebArena и SWE-Bench-Verified мы получили следующие ключевые наблюдения:
- Превосходные показатели успешности : ReasoningBank без масштабирования превзошел агентов, не использующих память, на 8,3% на WebArena и на 4,6% на SWE-Bench-Verified.
- Повышение эффективности : поскольку агент активно обращается к прошлым обоснованиям решений, он выполняет команды со значительно меньшим количеством бесцельных поисков. На SWE-Bench-Verified ReasoningBank сэкономил почти 3 шага выполнения на задачу по сравнению с базовыми моделями без памяти.
- Синергия MaTTS : При добавлении MaTTS (параллельное масштабирование с коэффициентом масштабирования k=5) показатели успешности дополнительно повышаются. ReasoningBank с MaTTS превосходит ReasoningBank на 3% по показателю успешности и на 0,4 шага меньше на WebArena.
Сравнение производительности (показатели успешности выполнения задач и среднее количество шагов на задачу) различных стратегий использования памяти агентами на платформах WebArena и SWE-Bench-Verified.
Важно отметить, что в ходе оценки мы наблюдали появление стратегической зрелости. В примере с веб-браузером первоначально созданные агентом правила напоминали простые процедурные контрольные списки (например, «Ищите ссылки на страницы»). По мере того, как агент решал всё больше задач, эти воспоминания интегрировались в процесс выполнения. Опираясь на существующие знания, агент формировал новые траектории в более сложные системы памяти. Со временем простые контрольные списки превратились в системы памяти с композиционными, превентивными логическими структурами (например, «Непрерывно сопоставляйте задачи с активными фильтрами страниц, чтобы гарантировать, что полученные наборы данных не будут преждевременно разбиты на страницы»). Подробнее см. в статье.
Заключение
ReasoningBank предоставляет мощную платформу, позволяющую LLM-ам обучаться на собственном опыте и развиваться в направлении непрерывного обучения во время тестирования. Мы считаем, что масштабирование на основе опыта, управляемого памятью, представляет собой важнейший новый рубеж для масштабирования агентов.
Мы рады поделиться этой информацией с более широким научным сообществом.
Благодарности
Это исследование провели Сиру Оуян, Цзюнь Ян, И-Хун Сюй, Яньфэй Чен, Кэ Цзян, Цзыфэн Ван, Руджун Хан, Лонг Т. Ле, Самира Даруки, Сянгру Тан, Виши Тирумалашетти, Джордж Ли, Махсан Рофуэй, Хангфэй Линь, Цзявэй Хан, Чэнь-Ю Ли и Томас Пфистер.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.