Image

Новая структура позволяет агентам ИИ переписывать свои навыки без переобучения базовой модели.

Бен Диксон

Саморазвивающиеся агенты

Изображение предоставлено VentureBeat и Nano Banana.

Одной из главных проблем при внедрении автономных агентов является создание систем, способных адаптироваться к изменениям в окружающей среде без необходимости переобучения базовых больших языковых моделей (LLM).

Memento-Skills — новая платформа, разработанная исследователями из нескольких университетов, — решает эту проблему, предоставляя агентам возможность самостоятельно развивать свои навыки. «Она добавляет возможность непрерывного обучения к существующим предложениям на рынке, таким как OpenClaw и Claude Code», — сказал соавтор статьи Джун Ван в интервью VentureBeat.

Memento-Skills выступает в роли развивающейся внешней памяти, позволяя системе постепенно улучшать свои возможности без изменения базовой модели. Эта структура предоставляет набор навыков, которые могут обновляться и расширяться по мере того, как агент получает обратную связь от окружающей среды.

Для корпоративных команд, использующих агенты в производственной среде, это имеет значение. Альтернативный вариант — тонкая настройка весов модели или ручное создание навыков — сопряжен со значительными операционными затратами и требованиями к данным. Memento-Skills позволяет избежать и того, и другого.

Трудности создания саморазвивающихся агентов

Саморазвивающиеся агенты имеют решающее значение, поскольку они преодолевают ограничения замороженных языковых моделей. После развертывания модели ее параметры остаются фиксированными, ограничивая ее знаниями, закодированными во время обучения, и тем, что помещается в ее непосредственном контекстном окне.

Предоставление модели внешней памяти в качестве основы позволяет ей совершенствоваться без дорогостоящего и медленного процесса переобучения. Однако существующие подходы к адаптации агентов в значительной степени основаны на навыках, разработанных вручную для решения новых задач. Хотя существуют некоторые методы автоматического обучения навыкам, они в основном создают текстовые руководства, которые сводятся к подсказкам по оптимизации. Другие подходы просто регистрируют траектории выполнения отдельных задач, которые не переносятся на другие задачи.

Кроме того, когда эти агенты пытаются получить релевантные знания для новой задачи, они обычно полагаются на маршрутизаторы семантического сходства, такие как стандартные плотные эмбеддинги; высокое семантическое перекрытие не гарантирует полезности поведения. Агент, полагающийся на стандартный RAG, может получить скрипт «сброса пароля» для решения запроса «обработки возврата средств» просто потому, что документы используют корпоративную терминологию.

«Большинство систем генерации с расширенным поиском (RAG) основаны на поиске по сходству. Однако, когда навыки представлены в виде исполняемых файлов, таких как документы Markdown или фрагменты кода, одного лишь сходства может быть недостаточно для выбора наиболее эффективного навыка», — сказал Ван.

Как Memento-Skills хранит и обновляет навыки

Для решения проблем, связанных с ограничениями существующих агентных систем, исследователи разработали Memento-Skills. В статье система описывается как «универсальная, постоянно обучаемая агентная система LLM, функционирующая как агент, разрабатывающий агентов». Вместо пассивного ведения журнала прошлых разговоров, Memento-Skills создает набор навыков, которые действуют как постоянная, развивающаяся внешняя память.

Рефлексивное обучение посредством чтения и письма

Рефлексивное обучение посредством чтения и записи (источник: arXiv)

Эти навыки хранятся в виде структурированных файлов Markdown и служат постоянно пополняющейся базой знаний агента. Каждый многократно используемый артефакт навыка состоит из трех основных элементов. Он содержит декларативные спецификации, описывающие, что представляет собой навык и как его следует использовать. Он включает в себя специализированные инструкции и подсказки, которые направляют рассуждения языковой модели. И он содержит исполняемый код и вспомогательные скрипты, которые агент запускает для фактического решения задачи.

Memento-Skills обеспечивает непрерывное обучение благодаря механизму «рефлексивного обучения с чтением и записью», который рассматривает обновления памяти как активную итерацию политики, а не пассивную регистрацию данных. При столкновении с новой задачей агент запрашивает у специализированного маршрутизатора навыков наиболее релевантный с точки зрения поведения навык — а не просто наиболее семантически похожий — и выполняет его.

После того, как агент выполняет навык и получает обратную связь, система анализирует результат, чтобы замкнуть цикл обучения. Вместо простого добавления записи о произошедшем, система активно изменяет свою память. Если выполнение завершается неудачей, оркестратор оценивает трассировку и перезаписывает артефакты навыка. Это означает, что он напрямую обновляет код или предлагает исправить конкретный сбой. В случае необходимости он создает совершенно новый навык.

Memento-Skills также обновляет маршрутизатор навыков с помощью одноэтапного процесса обучения с подкреплением в автономном режиме, который учится на основе обратной связи от выполнения, а не просто наложения текста. «Истинная ценность навыка заключается в том, как он способствует общему рабочему процессу агента и последующему выполнению», — сказал Ван. «Поэтому обучение с подкреплением предоставляет более подходящую структуру, поскольку позволяет агенту оценивать и выбирать навыки на основе долгосрочной полезности».

структура навыков запоминания

Структура Memento-Skills (источник: arXiv)

Для предотвращения регрессии в производственной среде автоматические изменения навыков защищены автоматическим контролем модульных тестов. Система генерирует синтетический тестовый пример, выполняет его с помощью обновленного навыка и проверяет результаты перед сохранением изменений в глобальной библиотеке.

Благодаря непрерывной переработке и усовершенствованию собственных исполняемых инструментов, Memento-Skills позволяет замороженной языковой модели формировать устойчивую «мышечную память» и постепенно расширять свои возможности от начала до конца.

Проверка саморазвивающегося агента на практике

Исследователи оценили Memento-Skills по двум строгим тестам. Первый — это General AI Assistants (GAIA), который требует сложного многоэтапного рассуждения, обработки мультимодальных данных, просмотра веб-страниц и использования инструментов. Второй — это Humanity's Last Exam (HLE), тест экспертного уровня, охватывающий восемь различных академических дисциплин, таких как математика и биология. Вся система работала на Gemini-3.1-Flash , выступающем в качестве базовой замороженной языковой модели.

Система сравнивалась с базовой моделью чтения-записи, которая извлекает навыки и собирает обратную связь, но не имеет саморазвивающихся функций. Исследователи также протестировали свой собственный маршрутизатор навыков на стандартных базовых моделях семантического поиска, включая эмбеддинги BM25 и Qwen3 .

Выполнение заданий, связанных с навыками запоминания

Результаты в бенчмарке GAIA (Memento-Skills против чтения-записи) (источник: arXiv)

Результаты показали, что активно саморазвивающаяся память значительно превосходит статическую библиотеку навыков. На высокоразнообразном бенчмарке GAIA система Memento-Skills повысила точность на тестовом наборе на 13,7 процентных пункта по сравнению со статическим базовым показателем, достигнув 66,0% против 52,3%. На бенчмарке HLE, где структура домена позволяла массово повторно использовать навыки в разных задачах, система более чем вдвое превзошла базовый показатель, увеличив его с 17,9% до 38,7%.

Более того, специализированный маршрутизатор навыков Memento-Skills избегает классической ловушки поиска, когда выбирается нерелевантный навык просто из-за семантического сходства. Эксперименты показывают, что Memento-Skills повышает показатель успешности выполнения задач от начала до конца до 80%, по сравнению с всего лишь 50% для стандартного поиска BM25.

Исследователи отметили, что Memento-Skills достигает такой производительности за счет высокоорганизованного, структурированного развития навыков. Оба эталонных эксперимента начинались всего с пяти основных навыков, таких как базовый поиск в интернете и операции с терминалом. В эталонном тесте GAIA агент автономно расширил эту группу основных навыков до компактной библиотеки из 41 навыка для выполнения разнообразных задач. В эталонном тесте HLE экспертного уровня система динамически масштабировала свою библиотеку до 235 различных навыков.

Развитие навыков работы с памятными вещами

Memento-Skills начинается с набора навыков (звездочки) и развивает новые навыки (круги) по мере решения задач (источник: arXiv).

Поиск оптимального решения для предприятия

Исследователи опубликовали исходный код Memento-Skills на GitHub , и он доступен для использования.

Для корпоративных архитекторов эффективность этой системы зависит от согласованности предметной области. Вместо того чтобы просто смотреть на результаты сравнительных тестов, ключевой компромисс в бизнесе заключается в том, обрабатывают ли ваши агенты изолированные задачи или структурированные рабочие процессы.

«Перенос навыков зависит от степени сходства между задачами», — сказал Ван. «Во-первых, когда задачи изолированы или слабо связаны между собой, агент не может полагаться на предыдущий опыт и должен учиться посредством взаимодействия». В таких разрозненных средах перенос навыков между задачами ограничен. «Во-вторых, когда задачи имеют существенную общую структуру, ранее приобретенные навыки могут быть непосредственно использованы повторно. В этом случае обучение становится более эффективным, поскольку знания переносятся между задачами, позволяя агенту успешно решать новые задачи с минимальным или полным отсутствием дополнительного взаимодействия».

Учитывая, что система требует выполнения повторяющихся задач для закрепления знаний, руководителям предприятий необходимо точно знать, где ее следует внедрить сегодня, а где лучше отложить.

«Рабочие процессы, вероятно, являются наиболее подходящей средой для такого подхода, поскольку они обеспечивают структурированную обстановку, в которой навыки могут быть сформированы, оценены и улучшены», — сказал Ван.

Однако он предостерег от чрезмерного использования данной модели в областях, еще не подходящих для ее применения. «Физические агенты остаются в значительной степени неизученными в этом контексте и требуют дальнейшего исследования. Кроме того, задачи с более длительными горизонтами могут потребовать более совершенных подходов, таких как многоагентные системы LLM, позволяющие координировать, планировать и обеспечивать устойчивое выполнение на протяжении длительных последовательностей решений».

По мере того, как отрасль переходит к агентам, которые автономно переписывают собственный производственный код, управление и безопасность остаются первостепенными задачами. Хотя Memento-Skills использует базовые механизмы безопасности, такие как автоматические проверки модульных тестов, для внедрения в корпоративной среде, вероятно, потребуется более широкая структура.

«Для обеспечения надежного самосовершенствования нам необходима хорошо разработанная система оценки или судейства, которая сможет оценивать результаты и предоставлять последовательные рекомендации», — сказал Ван. «Вместо того чтобы позволять неограниченное самосовершенствование, этот процесс должен быть структурирован как управляемая форма саморазвития, где обратная связь направляет субъекта к созданию более совершенных решений».

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Агенты, ИИ, Навыки, Новая, новости, Переобучение, Структура

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Цифровые абстрактные облака речи на темно-синем фоне с сеткой и светящимися линиями.
Цифровые пузырьки диалога из сетей на темно-синем фоне, символы коммуникации.
Диаграмма отбора данных и таблица характеристик участников исследования ходьбы и бега.
Диаграмма отбора данных и таблица характеристик участников исследования.
GPS-навигация в автомобиле с картой и музыкальным плеером на дисплее.
Логотип OpenAI на экране смартфона, фон яркий и размыт.
ideipro logotyp
Эволюция вычислительных устройств: счёты, линейка, калькулятор, ПК, микрочип.
Image Not Found
ideipro logotyp

Компания Akari объединяет усилия с WuXi XDC для разработки и производства новых методов лечения с использованием ADC-препаратов.

Биотехнологическая компания Akari Therapeutics, специализирующаяся на онкологии, объявила о партнерстве с компанией WuXi XDC, занимающейся разработкой и производством конъюгатов антител с лекарственными препаратами (ADC), с целью ускорения разработки и производства лекарственных препаратов компанией Akari. Согласно пресс-релизу от…

Апр 10, 2026
Цифровые пузырьки диалога из сетей на темно-синем фоне, символы коммуникации.

STAT+: Масштабное исследование использования ИИ для ведения записей выявило незначительную экономию времени, но непоследовательное применение.

По мере роста внедрения, внимание переключается на максимизацию преимуществ. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Системы автоматического документирования посещений пациентов позиционировались как способ облегчить нагрузку на врачей, испытывающих…

Апр 10, 2026
Цифровые абстрактные облака речи на темно-синем фоне с сеткой и светящимися линиями.

STAT+: Масштабное исследование использования ИИ для ведения записей выявило незначительную экономию времени, но непоследовательное применение.

По мере роста внедрения, внимание переключается на максимизацию преимуществ. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Системы автоматического документирования посещений пациентов позиционировались как способ облегчить нагрузку на врачей, испытывающих…

Апр 10, 2026
Диаграмма отбора данных и таблица характеристик участников исследования.

Дистанционный мониторинг обострений сердечной недостаточности с помощью умных часов.

Абстрактный Сердечная недостаточность (СН) включает циклы ремиссии и обострения, которые плохо характеризуются статическими показателями заболевания. Потребительские носимые устройства обладают недостаточно изученным потенциалом для ежедневного мониторинга симптомов СН. В данном исследовании мы представляем результаты наблюдения за когортой пациентов,…

Апр 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых