Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

ReasoningBank: Дает агентам возможность учиться на собственном опыте.

ReasoningBank — это инновационная платформа для работы с памятью агентов, которая использует успешный и неудачный опыт для выведения обобщаемых стратегий рассуждения, позволяя агенту непрерывно учиться на собственном опыте после развертывания.

Быстрые ссылки

Агенты играют все более важную роль в решении сложных задач реального мира, от общей навигации по веб-сайтам до помощи в работе с обширными кодовыми базами программного обеспечения. Однако, по мере того как эти агенты переходят к постоянным, долгосрочным ролям в реальном мире, они сталкиваются с серьезным ограничением: им трудно анализировать и извлекать уроки из успешного и неудачного опыта после развертывания.

Агенты, подходящие к каждой новой задаче без механизма памяти, будут неоднократно совершать одни и те же стратегические ошибки и упускать ценные идеи. Для решения этой проблемы были введены различные формы памяти агентов, позволяющие хранить информацию о прошлых взаимодействиях для повторного использования. Однако существующие методы, как правило, сосредоточены на сохранении исчерпывающих записей каждого предпринятого действия — например, память траекторий, используемая в Synapse, — или только на документировании рабочих процессов, обобщенных по успешным попыткам (как показано в Agent Workflow Memory). Эти подходы имеют два фундаментальных недостатка: во-первых, регистрируя подробные действия вместо тактического прогнозирования, они не позволяют выявить высокоуровневые, переносимые модели рассуждений; во-вторых, чрезмерно акцентируя внимание на успешном опыте, они упускают из виду основной источник обучения — собственные неудачи.

Чтобы восполнить этот пробел, в нашей статье на ICLR «ReasoningBank: масштабирование саморазвития агентов с помощью памяти для рассуждений» мы представляем новую структуру памяти для агентов (github), которая извлекает полезные выводы как из успешного, так и из неудачного опыта для саморазвития во время тестирования. При оценке на тестовых примерах веб-браузинга и разработки программного обеспечения ReasoningBank повышает как эффективность агентов (более высокие показатели успешности), так и производительность (меньшее количество шагов задачи) по сравнению с базовыми подходами.

ReasoningBank-1

Сравнение содержимого памяти: существующие стратегии и ReasoningBank.

Анализ данных с помощью ReasoningBank

ReasoningBank преобразует глобальные модели рассуждений в высокоуровневые структурированные блоки памяти. Каждый элемент структурированной памяти содержит следующее:

  • Заголовок : Краткое описание основной стратегии.
  • Описание : Краткое изложение запоминаемого элемента.
  • Содержание : Сведенные воедино этапы рассуждений, обоснования решений или оперативные выводы, полученные на основе прошлого опыта.

Процесс работы с памятью осуществляется в непрерывном замкнутом цикле извлечения, расшифровки и консолидации. Перед выполнением действия агент использует ReasoningBank для сбора релевантных воспоминаний в контексте. Затем он взаимодействует с окружающей средой и использует LLM-в качестве эксперта для самооценки результирующей траектории и извлечения выводов об успехе или неудаче. Важно отметить, что эта самооценка не обязательно должна быть идеально точной, поскольку, как мы обнаружили, ReasoningBank достаточно устойчив к шуму в оценках. В процессе расшифровки агент выделяет рабочие процессы и обобщаемые выводы из траектории в новые воспоминания. Для простоты мы напрямую добавляем их в ReasoningBank, оставляя более сложные стратегии консолидации для будущих исследований.

Важно отметить, что в отличие от существующих стратегий запоминания рабочих процессов, которые фокусируются только на успешных запусках, ReasoningBank активно анализирует неудачные попытки, чтобы выявлять контрфактические сигналы и подводные камни. Преобразуя эти ошибки в уроки для предотвращения ошибок, ReasoningBank создает мощные стратегические механизмы защиты. Например, вместо простого изучения процедурного правила, такого как «нажмите кнопку „Загрузить еще“», агент может извлечь урок из прошлой неудачи и научиться «всегда сначала проверять идентификатор текущей страницы, чтобы избежать ловушек бесконечной прокрутки, прежде чем пытаться загрузить дополнительные результаты».

ReasoningBank-2

Рабочий процесс ReasoningBank, интегрированный с агентом во время тестирования.

Масштабирование времени тестирования с учетом объема памяти (MaTTS)

Масштабирование вычислений во время тестирования (TTS) — масштабирование вычислений во время вывода — продемонстрировало огромную эффективность в таких областях рассуждений, как математика и соревновательное программирование. Однако в агентных средах существующие методы TTS часто игнорируют траекторию исследования и рассматривают конечный ответ как единственный полезный результат. Это упущенное из виду исследование на самом деле является богатым источником данных, который мог бы ускорить способность агента учиться на опыте с течением времени.

Мы преодолеваем этот разрыв, явно связывая память с масштабированием посредством масштабирования во время тестирования с учетом памяти (MaTTS). Используя ReasoningBank в качестве мощного алгоритма обучения на основе опыта, MaTTS преобразует обширное исследование в высококачественные данные памяти с помощью контрастных и уточняющих сигналов. Мы демонстрируем возможности функций MaTTS на примере двух различных форм масштабирования:

  • Параллельное масштабирование : агент генерирует несколько различных траекторий для одного и того же запроса, руководствуясь памятью. С помощью самоконтраста ReasoningBank сравнивает успешные и ошибочно обоснованные траектории, чтобы выявить более надежные стратегии и синтезировать более качественную память.
  • Последовательное масштабирование : Агент итеративно уточняет рассуждения в рамках одной траектории, чтобы получить убедительные промежуточные обоснования. ReasoningBank фиксирует эти промежуточные выводы, полученные в результате проб и ошибок агента и его постепенного улучшения, в виде высококачественных элементов памяти.

MaTTS создает мощную синергию: высококачественная память из ReasoningBank направляет масштабированное исследование к более перспективным стратегиям, а в свою очередь, масштабированные взаимодействия генерируют значительно более богатые сигналы обучения, которые поступают обратно в еще более интеллектуальный ReasoningBank, помогая агенту.

Банк рассуждений-3

Сравнение масштабирования времени тестирования с учетом объема памяти (MaTTS) с ReasoningBank.

Производительность и новые возможности

Мы оценили ReasoningBank на сложных тестовых задачах, охватывающих динамические среды. Используя стратегию подсказок ReAct в качестве основы для всех агентов, мы сравнили ReasoningBank с тремя конфигурациями памяти: базовой конфигурацией без памяти (Vanilla ReAct), Synapse (память траектории) и AWM (память рабочего процесса). На основе основных результатов оценки с использованием Gemini-2.5-Flash на WebArena и SWE-Bench-Verified мы получили следующие ключевые наблюдения:

  • Превосходные показатели успешности : ReasoningBank без масштабирования превзошел агентов, не использующих память, на 8,3% на WebArena и на 4,6% на SWE-Bench-Verified.
  • Повышение эффективности : поскольку агент активно обращается к прошлым обоснованиям решений, он выполняет команды со значительно меньшим количеством бесцельных поисков. На SWE-Bench-Verified ReasoningBank сэкономил почти 3 шага выполнения на задачу по сравнению с базовыми моделями без памяти.
  • Синергия MaTTS : При добавлении MaTTS (параллельное масштабирование с коэффициентом масштабирования k=5) показатели успешности дополнительно повышаются. ReasoningBank с MaTTS превосходит ReasoningBank на 3% по показателю успешности и на 0,4 шага меньше на WebArena.
ReasoningBank-4

Сравнение производительности (показатели успешности выполнения задач и среднее количество шагов на задачу) различных стратегий использования памяти агентами на платформах WebArena и SWE-Bench-Verified.

Важно отметить, что в ходе оценки мы наблюдали появление стратегической зрелости. В примере с веб-браузером первоначально созданные агентом правила напоминали простые процедурные контрольные списки (например, «Ищите ссылки на страницы»). По мере того, как агент решал всё больше задач, эти воспоминания интегрировались в процесс выполнения. Опираясь на существующие знания, агент формировал новые траектории в более сложные системы памяти. Со временем простые контрольные списки превратились в системы памяти с композиционными, превентивными логическими структурами (например, «Непрерывно сопоставляйте задачи с активными фильтрами страниц, чтобы гарантировать, что полученные наборы данных не будут преждевременно разбиты на страницы»). Подробнее см. в статье.

Заключение

ReasoningBank предоставляет мощную платформу, позволяющую LLM-ам обучаться на собственном опыте и развиваться в направлении непрерывного обучения во время тестирования. Мы считаем, что масштабирование на основе опыта, управляемого памятью, представляет собой важнейший новый рубеж для масштабирования агентов.

Мы рады поделиться этой информацией с более широким научным сообществом.

Благодарности

Это исследование провели Сиру Оуян, Цзюнь Ян, И-Хун Сюй, Яньфэй Чен, Кэ Цзян, Цзыфэн Ван, Руджун Хан, Лонг Т. Ле, Самира Даруки, Сянгру Тан, Виши Тирумалашетти, Джордж Ли, Махсан Рофуэй, Хангфэй Линь, Цзявэй Хан, Чэнь-Ю Ли и Томас Пфистер.

Источник: research.google

✅ Найденные теги: Reasoningbank, Агентам, Возможность, Даёт, новости, Учиться

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Посвящения в книги Архив рубрики ~Лента новостей~: Компания Alphabet планирует привлечь 80 миллиардов долларов для финансирования разработки решений в области искусственного интеллекта. Архив рубрики ~Лента новостей~: Как и почему умирает ИИ-внедрение: пять bottlenecks Архив рубрики ~Лента новостей~: Почему я благодарна Папе Римскому за его энциклику об искусственном интеллекте | Франсин Проуз Архив рубрики ~Лента новостей~: Почему на самом деле нельзя делить на ноль? Физический и аксиоматический подходы Архив рубрики ~Лента новостей~: Учёные в кризисе теперь, когда они несут ответственность за галлюцинации ИИ в своих исследовательских работах Архив рубрики ~Лента новостей~: Мы создаём российскую альтернативу ChatGPT Архив рубрики ~Лента новостей~: Чип и фейк спешат напомнить: Как делались фейки до прихода ИИ (и почему они ужасны)