Архив рубрики ~Лента новостей~

Новая платформа искусственного интеллекта Alibaba пропускает загрузку всех инструментов, сокращая использование токенов агентов на 99%.

Новая платформа искусственного интеллекта Alibaba пропускает загрузку всех инструментов, сокращая использование токенов агентов на 99%.
Новая платформа искусственного интеллекта Alibaba пропускает загрузку всех инструментов, сокращая использование токенов агентов на 99%.

Бен Диксон

По мере масштабирования корпоративных систем искусственного интеллекта для обработки сложных рабочих процессов, специалисты сталкиваются с проблемой маршрутизации подзадач к нужным инструментам и навыкам. У агентов могут быть сотни инструментов и навыков, и они могут запутаться, какой из них использовать на каждом этапе рабочего процесса.

Для решения этой задачи исследователи из Alibaba разработали SkillWeaver — фреймворк, который создает граф выполнения для заданной задачи и выбирает подходящие навыки для каждого из узлов. Они также представили Skill-Aware Decomposition (SAD) — новую технику, использующую обратную связь, позволяющую агенту итеративно выбирать и проверять подходящие инструменты. Этот композиционный подход и механизм обратной связи отличают SkillWeaver от других фреймворков маршрутизации инструментов, которые выбирают инструменты за один раз.

SkillWeaver связан с реальными приложениями искусственного интеллекта, где агенты автономно управляют многофункциональными экосистемами, такими как протокол контекста модели (MCP), для выполнения многоэтапных бизнес-операций, таких как загрузка наборов данных, преобразование информации и создание визуальных отчетов.

На практике эксперименты исследователей со SkillWeaver показывают, что внедрение такого подхода, основанного на получении и маршрутизации данных, значительно повышает точность и снижает потребление токенов более чем на 99% по сравнению с простым предоставлением агентам доступа ко всей библиотеке инструментов.

Для специалистов, разрабатывающих агентов искусственного интеллекта, главный вывод заключается в том, что детализация декомпозиции задач является самым большим препятствием для точного поиска инструментов.

Проблема маршрутизации навыков

Навыки являются ключевым элементом в современных архитектурах агентов LLM. Навык представляет собой модульную, многократно используемую спецификацию инструмента, использующую структурированную документацию на естественном языке.

Поскольку корпоративные агенты интегрируются с обширными экосистемами инструментов, точная маршрутизация запросов пользователей к нужным навыкам становится сложной задачей. Предоставление доступа к целой библиотеке LLM для поиска нужного инструмента крайне неэффективно, быстро превышает контекстные ограничения и потребляет сотни тысяч токенов.

Большинство современных фреймворков для использования инструментов пытаются решить эту проблему с помощью получения данных из API, сопоставления документации или иерархических структур, которые рассматривают маршрутизацию исключительно как выбор одного навыка или задачу, выполняемую на каждом этапе.

Однако такая парадигма «одного навыка» недостаточна для корпоративных сред, поскольку реальные запросы по своей природе являются композиционными. Стандартный бизнес-запрос, такой как «Загрузить набор данных, преобразовать его и создать визуальные отчеты», не может быть выполнен одним инструментом. Необходимо разбить запрос на части и объединить API-клиент, обработчик данных и инструмент визуализации в единый многоэтапный план выполнения.

Как работают SkillWeaver и SAD

Для решения этой проблемы исследователи сформулировали задачу обработки сложных задач, требующих множества навыков, как «композиционную маршрутизацию навыков». Имея сложный запрос пользователя и обширную библиотеку инструментов, агент должен одновременно определить, как разбить запрос на последовательность атомарных подзадач, как сопоставить каждую подзадачу с единственным наилучшим доступным навыком и как скомпоновать эти навыки в исполняемый план.

SkillWeaver организует этот процесс в три отдельных этапа: декомпозиция, извлечение и составление. На первом этапе LLM выступает в роли декомпозитора задач, разбивая сложный запрос пользователя на последовательность подзадач, каждая из которых требует наличия определенного навыка. После того, как подзадачи четко определены, система использует модель встраивания для сравнения каждой подзадачи с библиотекой навыков, чтобы составить краткий список лучших инструментов-кандидатов для каждого шага.

На заключительном этапе планировщик оценивает полученные варианты на основе того, насколько хорошо они взаимодействуют друг с другом. Он проверяет совместимость навыков, чтобы гарантировать, что результаты работы одного инструмента естественным образом перетекают во входные данные следующего. Затем он создает окончательный план выполнения в виде направленного ациклического графа (DAG), который отображает зависимости, так что независимые задачи потенциально могут выполняться параллельно.

SkillWeaver

фреймворк SkillWeaver

Например, рассмотрим ситуацию, когда пользователь просит ИИ-агента «Загрузить набор данных, преобразовать его и создать визуальные отчеты». На этапе декомпозиции декомпозирующий модуль LLM разбивает эту задачу на три отдельные подзадачи: загрузка набора данных, преобразование данных и создание отчетов.

На этапе извлечения система выполняет поиск в библиотеке и находит подходящие варианты, такие как «api-client» или «http-fetch» для первой задачи, «csv-parser» или «etl-pipeline» для второй задачи и так далее. Наконец, на этапе компоновки оцениваются эти варианты, выбирается наиболее совместимая комбинация «api-client», «csv-parser» и «chart-gen», и они объединяются в окончательный, готовый к выполнению рабочий процесс.

Ключевая проблема этого конвейера заключается в том, что LLM часто создают общие описания шагов, которые не соответствуют специфической технической терминологии реальных навыков, доступных в библиотеке. Для решения этой проблемы SkillWeaver представляет итеративную декомпозицию с учетом навыков (SAD), новую систему обратной связи. SAD работает следующим образом: LLM составляет первоначальный план, проводит предварительный поиск для обнаружения приблизительно соответствующих навыков, а затем передает эти найденные навыки обратно в LLM в качестве подсказок. Это позволяет LLM переписать свою декомпозицию таким образом, чтобы детализация и терминология идеально соответствовали существующим инструментам.

SkillWeaver в действии

Для оценки производительности SkillWeaver в реалистичных корпоративных сценариях исследователи создали собственный бенчмарк под названием CompSkillBench. Он состоит из 300 многошаговых запросов различного уровня сложности. Чтобы имитировать реальные условия, они использовали библиотеку из 2209 реальных навыков, полученных из общедоступной экосистемы MCP, охватывающую 24 функциональные категории, такие как облачная инфраструктура, финансы и базы данных.

В качестве основного механизма исследователи использовали в основном облегченную модель с 7 миллиардами параметров (Qwen2.5-7B-Instruct) для декомпозиции задач, в паре со стандартным семантическим поисковым механизмом (MiniLM с индексом FAISS) для поиска инструментов. SkillWeaver оценивался в трех основных вариантах: метод перебора «LLM-Direct», при котором все названия инструментов помещались в подсказку большой модели, стандартная декомпозиция на основе LLM без SAD и цикл работы агентов в стиле ReAct.

Эксперименты показывают, что основным узким местом является декомпозиция задачи. Стандартное поведение LLM оказывается неэффективным при работе с большими библиотеками инструментов, но обратная связь SAD значительно улучшает ситуацию. В стандартной конфигурации модель 7B достигала точности декомпозиции (т.е., прогнозирования правильного количества шагов) только в 51,0% случаев. Активация обратной связи SAD повысила точность до 67,7% (с более крупной моделью Qwen-Max точность достигла 92%). В «сложных» задачах, требующих четырех-пяти различных навыков, SAD повысила точность на 50%.

Результаты SkillWeaver

Одно из интересных открытий заключалось в том, что более крупные модели могут показывать худшие результаты без управления. При тестировании в стандартной конфигурации точность более крупной модели с 14 миллиардами параметров резко упала ниже точности модели с 7 миллиардами параметров, поскольку она имела тенденцию к чрезмерному разложению задач на микроскопические, ненужные шаги. После внедрения SAD (Self-Assisted Data System) полученные подсказки инструментов вернули модель к реальности и повысили ее точность. Это говорит о том, что согласование агента с языком конкретных инструментов часто оказывается более эффективным, чем оплата более крупной и дорогой модели LLM.

Еще один важный вывод — экономия токенов. Базовый тест LLM-Direct, в котором использовалась очень большая модель Qwen-Max, показал, что ввод всех инструментов в запрос большой модели не дает результатов. Несмотря на почти идеальные возможности разбивки задач, массивная модель извлекала нужную категорию инструментов только в 21,1% случаев при перегрузке вариантами инструментов. Целенаправленный подход SkillWeaver к извлечению и маршрутизации значительно превзошел этот показатель по точности, сократив потребление контекстного окна с примерно 884 000 токенов до 1160 токенов на запрос, что составляет снижение на 99,9%. Для специалистов это напрямую означает значительное снижение затрат на API и более быстрое время ответа.

В итоге, традиционный базовый подход ReAct полностью провалился, достигнув нулевой точности декомпозиции. Его цикл естественным образом сводит многоэтапные планы к изолированным действиям, а не явно выстраивает целостную последовательность действий с использованием нескольких инструментов.

Рекомендации для разработчиков

Хотя исследователи еще не опубликовали исходный код SkillWeaver, их работа основана на готовых инструментах, которые легко воспроизвести.

Ключевое нововведение в основе фреймворка — декомпозиция с учетом навыков (Skill-Aware Decomposition, SAD), представляющая собой продуманный цикл проектирования и поиска подсказок. Авторы поделились шаблонами подсказок в своей статье, и разработчики могут довольно легко реализовать их самостоятельно, используя стандартные библиотеки оркестрации, такие как LangChain, LlamaIndex, или даже простые скрипты Python.

Что касается компонента поиска, авторы создали основную структуру, используя модель встраивания с открытым исходным кодом all-MiniLM-L6-v2. Они обнаружили, что замена стандартного кодировщика (BGE-base-en-v1.5) на более мощный стандартный кодировщик сразу же повысила точность без какой-либо тонкой настройки. Хотя стандартный бинарный кодировщик отлично справляется с попаданием релевантного инструмента в топ-10 кандидатов почти в 70% случаев, ему сложно стабильно ранжировать идеальный инструмент точно на первом месте, достигая этого лишь примерно в 37% случаев. Чтобы преодолеть этот разрыв, командам, вероятно, потребуется реализовать вторичный кросс-кодировщик или переранжировщик на основе LLM для изменения порядка этих 10 лучших кандидатов.

Одно из предварительных требований — векторизация библиотеки инструментов и предварительное создание индекса FAISS. На практике это не представляет собой существенной проблемы. Встраивание и индексирование всех 2209 навыков в бенчмарке заняло всего 15 секунд. После создания индекса извлечение инструментов из него добавляет менее 15 миллисекунд задержки на каждый запрос. В корпоративных средах синхронизация индекса инструментов — это простая фоновая задача.

Одним из текущих ограничений SkillWeaver является отсутствие механизмов восстановления после ошибок. Хотя SkillWeaver успешно создает совместимый DAG для выполнения, пилотное исследование авторов выявило проблемы многошаговых цепочек инструментов. Например, если вызов API завершается неудачей на втором шаге, вся цепочка обрывается. Основной вклад статьи ограничивается этапами маршрутизации и планирования. Для реального развертывания в производственной среде специалистам необходимо создать собственные механизмы восстановления после ошибок, резервного копирования и повторных попыток поверх этапа компоновки, чтобы обрабатывать реальные тайм-ауты API или некорректные выходные данные.

Transform: Посмотрите, кто участвует в CTA

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Поделиться
Понравилась статья? Расскажите другим
ВКонтакте
Читайте также
Новости робототехники Люксонис завершает раунд раунда А по масштабированию уровня визуального наблюдения ИИ Новости робототехники Автоматизировать итоги шоу 2026 года Новости робототехники Венчурная фирма Мелинды Гейтс инвестирует в фонд Fund II компании Magnify Ventures объемом 46,6 млн долларов. Новости робототехники Техгиганты увольняют людей — к чему готовиться джунам Новости робототехники Почему вам следует совмещать ловкость робота с механическим позиционированием для сложных сборочных операций Архив рубрики ~Коротко из Telegram~ Нашёл ещё один токен-выгодный флоу для Fable: Fable 5 можно… Новости робототехники Китайская UBTech показала новое поколение гуманоидов, которых всё сложнее и… Архив рубрики ~Коротко из Telegram~ VK Tech и Yandex B2B Tech рассматривают возможность сотрудничества в… Архив рубрики ~Коротко из Telegram~ 🍒 Anthropic заявила, что связанные с Alibaba структуры использовали почти… Архив рубрики ~Коротко из Telegram~ Инструменты дня 📊 LDOO отвечает на вопросы о ваших маркетинговых данных с… Архив рубрики ~Коротко из Telegram~ 🇷🇺 ФАС России выдала предупреждение компании Apple с обязательством устранить… Архив рубрики ~Коротко из Telegram~ 🇪🇺 Тим Кук отстаивает Siri AI в ЕС на встрече… Архив рубрики ~Коротко из Telegram~ #слухи от Марка Гурмана: три функции iOS и watchOS 27… Архив рубрики ~Обо всем~ Кто такие синтетические покупатели и почему они меняют e-commerce Новости робототехники Люксонис завершает раунд раунда А по масштабированию уровня визуального наблюдения ИИ Новости робототехники Автоматизировать итоги шоу 2026 года Новости робототехники Венчурная фирма Мелинды Гейтс инвестирует в фонд Fund II компании Magnify Ventures объемом 46,6 млн долларов. Новости робототехники Техгиганты увольняют людей — к чему готовиться джунам Новости робототехники Почему вам следует совмещать ловкость робота с механическим позиционированием для сложных сборочных операций Архив рубрики ~Коротко из Telegram~ Нашёл ещё один токен-выгодный флоу для Fable: Fable 5 можно… Новости робототехники Китайская UBTech показала новое поколение гуманоидов, которых всё сложнее и… Архив рубрики ~Коротко из Telegram~ VK Tech и Yandex B2B Tech рассматривают возможность сотрудничества в… Архив рубрики ~Коротко из Telegram~ 🍒 Anthropic заявила, что связанные с Alibaba структуры использовали почти… Архив рубрики ~Коротко из Telegram~ Инструменты дня 📊 LDOO отвечает на вопросы о ваших маркетинговых данных с… Архив рубрики ~Коротко из Telegram~ 🇷🇺 ФАС России выдала предупреждение компании Apple с обязательством устранить… Архив рубрики ~Коротко из Telegram~ 🇪🇺 Тим Кук отстаивает Siri AI в ЕС на встрече… Архив рубрики ~Коротко из Telegram~ #слухи от Марка Гурмана: три функции iOS и watchOS 27… Архив рубрики ~Обо всем~ Кто такие синтетические покупатели и почему они меняют e-commerce

Оставить комментарий