Image

Новая структура позволяет агентам ИИ переписывать свои навыки без переобучения базовой модели.

Бен Диксон

Саморазвивающиеся агенты

Изображение предоставлено VentureBeat и Nano Banana.

Одной из главных проблем при внедрении автономных агентов является создание систем, способных адаптироваться к изменениям в окружающей среде без необходимости переобучения базовых больших языковых моделей (LLM).

Memento-Skills — новая платформа, разработанная исследователями из нескольких университетов, — решает эту проблему, предоставляя агентам возможность самостоятельно развивать свои навыки. «Она добавляет возможность непрерывного обучения к существующим предложениям на рынке, таким как OpenClaw и Claude Code», — сказал соавтор статьи Джун Ван в интервью VentureBeat.

Memento-Skills выступает в роли развивающейся внешней памяти, позволяя системе постепенно улучшать свои возможности без изменения базовой модели. Эта структура предоставляет набор навыков, которые могут обновляться и расширяться по мере того, как агент получает обратную связь от окружающей среды.

Для корпоративных команд, использующих агенты в производственной среде, это имеет значение. Альтернативный вариант — тонкая настройка весов модели или ручное создание навыков — сопряжен со значительными операционными затратами и требованиями к данным. Memento-Skills позволяет избежать и того, и другого.

Трудности создания саморазвивающихся агентов

Саморазвивающиеся агенты имеют решающее значение, поскольку они преодолевают ограничения замороженных языковых моделей. После развертывания модели ее параметры остаются фиксированными, ограничивая ее знаниями, закодированными во время обучения, и тем, что помещается в ее непосредственном контекстном окне.

Предоставление модели внешней памяти в качестве основы позволяет ей совершенствоваться без дорогостоящего и медленного процесса переобучения. Однако существующие подходы к адаптации агентов в значительной степени основаны на навыках, разработанных вручную для решения новых задач. Хотя существуют некоторые методы автоматического обучения навыкам, они в основном создают текстовые руководства, которые сводятся к подсказкам по оптимизации. Другие подходы просто регистрируют траектории выполнения отдельных задач, которые не переносятся на другие задачи.

Кроме того, когда эти агенты пытаются получить релевантные знания для новой задачи, они обычно полагаются на маршрутизаторы семантического сходства, такие как стандартные плотные эмбеддинги; высокое семантическое перекрытие не гарантирует полезности поведения. Агент, полагающийся на стандартный RAG, может получить скрипт «сброса пароля» для решения запроса «обработки возврата средств» просто потому, что документы используют корпоративную терминологию.

«Большинство систем генерации с расширенным поиском (RAG) основаны на поиске по сходству. Однако, когда навыки представлены в виде исполняемых файлов, таких как документы Markdown или фрагменты кода, одного лишь сходства может быть недостаточно для выбора наиболее эффективного навыка», — сказал Ван.

Как Memento-Skills хранит и обновляет навыки

Для решения проблем, связанных с ограничениями существующих агентных систем, исследователи разработали Memento-Skills. В статье система описывается как «универсальная, постоянно обучаемая агентная система LLM, функционирующая как агент, разрабатывающий агентов». Вместо пассивного ведения журнала прошлых разговоров, Memento-Skills создает набор навыков, которые действуют как постоянная, развивающаяся внешняя память.

Рефлексивное обучение посредством чтения и письма

Рефлексивное обучение посредством чтения и записи (источник: arXiv)

Эти навыки хранятся в виде структурированных файлов Markdown и служат постоянно пополняющейся базой знаний агента. Каждый многократно используемый артефакт навыка состоит из трех основных элементов. Он содержит декларативные спецификации, описывающие, что представляет собой навык и как его следует использовать. Он включает в себя специализированные инструкции и подсказки, которые направляют рассуждения языковой модели. И он содержит исполняемый код и вспомогательные скрипты, которые агент запускает для фактического решения задачи.

Memento-Skills обеспечивает непрерывное обучение благодаря механизму «рефлексивного обучения с чтением и записью», который рассматривает обновления памяти как активную итерацию политики, а не пассивную регистрацию данных. При столкновении с новой задачей агент запрашивает у специализированного маршрутизатора навыков наиболее релевантный с точки зрения поведения навык — а не просто наиболее семантически похожий — и выполняет его.

После того, как агент выполняет навык и получает обратную связь, система анализирует результат, чтобы замкнуть цикл обучения. Вместо простого добавления записи о произошедшем, система активно изменяет свою память. Если выполнение завершается неудачей, оркестратор оценивает трассировку и перезаписывает артефакты навыка. Это означает, что он напрямую обновляет код или предлагает исправить конкретный сбой. В случае необходимости он создает совершенно новый навык.

Memento-Skills также обновляет маршрутизатор навыков с помощью одноэтапного процесса обучения с подкреплением в автономном режиме, который учится на основе обратной связи от выполнения, а не просто наложения текста. «Истинная ценность навыка заключается в том, как он способствует общему рабочему процессу агента и последующему выполнению», — сказал Ван. «Поэтому обучение с подкреплением предоставляет более подходящую структуру, поскольку позволяет агенту оценивать и выбирать навыки на основе долгосрочной полезности».

структура навыков запоминания

Структура Memento-Skills (источник: arXiv)

Для предотвращения регрессии в производственной среде автоматические изменения навыков защищены автоматическим контролем модульных тестов. Система генерирует синтетический тестовый пример, выполняет его с помощью обновленного навыка и проверяет результаты перед сохранением изменений в глобальной библиотеке.

Благодаря непрерывной переработке и усовершенствованию собственных исполняемых инструментов, Memento-Skills позволяет замороженной языковой модели формировать устойчивую «мышечную память» и постепенно расширять свои возможности от начала до конца.

Проверка саморазвивающегося агента на практике

Исследователи оценили Memento-Skills по двум строгим тестам. Первый — это General AI Assistants (GAIA), который требует сложного многоэтапного рассуждения, обработки мультимодальных данных, просмотра веб-страниц и использования инструментов. Второй — это Humanity's Last Exam (HLE), тест экспертного уровня, охватывающий восемь различных академических дисциплин, таких как математика и биология. Вся система работала на Gemini-3.1-Flash , выступающем в качестве базовой замороженной языковой модели.

Система сравнивалась с базовой моделью чтения-записи, которая извлекает навыки и собирает обратную связь, но не имеет саморазвивающихся функций. Исследователи также протестировали свой собственный маршрутизатор навыков на стандартных базовых моделях семантического поиска, включая эмбеддинги BM25 и Qwen3 .

Выполнение заданий, связанных с навыками запоминания

Результаты в бенчмарке GAIA (Memento-Skills против чтения-записи) (источник: arXiv)

Результаты показали, что активно саморазвивающаяся память значительно превосходит статическую библиотеку навыков. На высокоразнообразном бенчмарке GAIA система Memento-Skills повысила точность на тестовом наборе на 13,7 процентных пункта по сравнению со статическим базовым показателем, достигнув 66,0% против 52,3%. На бенчмарке HLE, где структура домена позволяла массово повторно использовать навыки в разных задачах, система более чем вдвое превзошла базовый показатель, увеличив его с 17,9% до 38,7%.

Более того, специализированный маршрутизатор навыков Memento-Skills избегает классической ловушки поиска, когда выбирается нерелевантный навык просто из-за семантического сходства. Эксперименты показывают, что Memento-Skills повышает показатель успешности выполнения задач от начала до конца до 80%, по сравнению с всего лишь 50% для стандартного поиска BM25.

Исследователи отметили, что Memento-Skills достигает такой производительности за счет высокоорганизованного, структурированного развития навыков. Оба эталонных эксперимента начинались всего с пяти основных навыков, таких как базовый поиск в интернете и операции с терминалом. В эталонном тесте GAIA агент автономно расширил эту группу основных навыков до компактной библиотеки из 41 навыка для выполнения разнообразных задач. В эталонном тесте HLE экспертного уровня система динамически масштабировала свою библиотеку до 235 различных навыков.

Развитие навыков работы с памятными вещами

Memento-Skills начинается с набора навыков (звездочки) и развивает новые навыки (круги) по мере решения задач (источник: arXiv).

Поиск оптимального решения для предприятия

Исследователи опубликовали исходный код Memento-Skills на GitHub , и он доступен для использования.

Для корпоративных архитекторов эффективность этой системы зависит от согласованности предметной области. Вместо того чтобы просто смотреть на результаты сравнительных тестов, ключевой компромисс в бизнесе заключается в том, обрабатывают ли ваши агенты изолированные задачи или структурированные рабочие процессы.

«Перенос навыков зависит от степени сходства между задачами», — сказал Ван. «Во-первых, когда задачи изолированы или слабо связаны между собой, агент не может полагаться на предыдущий опыт и должен учиться посредством взаимодействия». В таких разрозненных средах перенос навыков между задачами ограничен. «Во-вторых, когда задачи имеют существенную общую структуру, ранее приобретенные навыки могут быть непосредственно использованы повторно. В этом случае обучение становится более эффективным, поскольку знания переносятся между задачами, позволяя агенту успешно решать новые задачи с минимальным или полным отсутствием дополнительного взаимодействия».

Учитывая, что система требует выполнения повторяющихся задач для закрепления знаний, руководителям предприятий необходимо точно знать, где ее следует внедрить сегодня, а где лучше отложить.

«Рабочие процессы, вероятно, являются наиболее подходящей средой для такого подхода, поскольку они обеспечивают структурированную обстановку, в которой навыки могут быть сформированы, оценены и улучшены», — сказал Ван.

Однако он предостерег от чрезмерного использования данной модели в областях, еще не подходящих для ее применения. «Физические агенты остаются в значительной степени неизученными в этом контексте и требуют дальнейшего исследования. Кроме того, задачи с более длительными горизонтами могут потребовать более совершенных подходов, таких как многоагентные системы LLM, позволяющие координировать, планировать и обеспечивать устойчивое выполнение на протяжении длительных последовательностей решений».

По мере того, как отрасль переходит к агентам, которые автономно переписывают собственный производственный код, управление и безопасность остаются первостепенными задачами. Хотя Memento-Skills использует базовые механизмы безопасности, такие как автоматические проверки модульных тестов, для внедрения в корпоративной среде, вероятно, потребуется более широкая структура.

«Для обеспечения надежного самосовершенствования нам необходима хорошо разработанная система оценки или судейства, которая сможет оценивать результаты и предоставлять последовательные рекомендации», — сказал Ван. «Вместо того чтобы позволять неограниченное самосовершенствование, этот процесс должен быть структурирован как управляемая форма саморазвития, где обратная связь направляет субъекта к созданию более совершенных решений».

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: Агенты, ИИ, Навыки, Новая, новости, Переобучение, Структура

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Сайт Anthropic.com открыт в браузере на экране ноутбука. Показано название страницы.
ideipro logotyp
Цифровой процесс обработки данных в серверной. Технология блокчейн в дата-центре.
Мужчина в синей рубашке на фоне офисного интерьера, размытое лицо, бизнес-атмосфера.
Текст "Research to Reality", горы, северное сияние, МРТ-снимок, исследовательский центр.
По коням. Кто и где одомашнил символ 2026 года
По коням. Кто и где одомашнил символ 2026 года
Блокировки за 80 млрд рублей вместо ПВО. Чиновники загоняют Россию в каменный век
Разработчик Crimson Desert добавил в проект поддержку технологий Intel XeSS 3.0
Image Not Found
Сайт Anthropic.com открыт в браузере на экране ноутбука. Показано название страницы.

Представители администрации Трампа, возможно, призывают банки протестировать модель Mythos компании Anthropic.

Вкратце Опубликовано: Источник изображения: Джагмит Сингх / TechCrunch Энтони Ха Представители администрации Трампа, возможно, призывают банки протестировать модель Mythos компании Anthropic. По данным Bloomberg, министр финансов Скотт Бессент и председатель Федеральной резервной системы Джером Пауэлл на этой…

Апр 13, 2026
ideipro logotyp

Усовершенствованный складной телефон Motorola продается почти за полцены.

В течение ограниченного времени Amazon продает Razr Ultra со скидкой в 600 долларов. Источник: www.wired.com ✅ Найденные теги: Motorola, новости, Полцена, Складной Телефон, УсовершенствованныйПохожие записиПредставители администрации Трампа, возможно, призывают банки протестировать модель Mythos компании Anthropic.Помогаем центрам обработки…

Апр 13, 2026
Цифровой процесс обработки данных в серверной. Технология блокчейн в дата-центре.

Помогаем центрам обработки данных достигать более высокой производительности при меньшем количестве оборудования.

Исследователи разработали систему, которая интеллектуально балансирует рабочие нагрузки для повышения эффективности работы флэш-накопителей в центре обработки данных. Исследователи из Массачусетского технологического института разработали интеллектуальную систему для балансировки задач устройств хранения данных внутри центра обработки данных, что может…

Апр 13, 2026
Мужчина в синей рубашке на фоне офисного интерьера, размытое лицо, бизнес-атмосфера.

Работаем над продвижением ядерного возрождения.

Дин Прайс, доцент кафедры ядерной науки и техники, видит светлое будущее для атомной энергетики и считает, что искусственный интеллект может помочь нам реализовать это видение. «Став инженером-ядерщиком, вы становитесь одним из немногих избранных, ответственных за производство безуглеродной…

Апр 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых