Технология HarnessX от Xiaomi переписывает собственную структуру искусственного интеллекта прямо во время выполнения задачи — и это особенно выгодно для моделей меньшего размера.

25.06.2026 ideipro.ru

Бен Диксон

Поскольку корпоративные ИИ-агенты берут на себя все более сложные задачи с длительным горизонтом планирования, их производительность часто ограничивается используемой ими инфраструктурой — программным обеспечением, которое соединяет базовую систему LLM с окружающей средой.

В настоящее время страховочные системы в основном статичны и изготавливаются вручную. Их усовершенствование в значительной степени осуществляется вручную, и они не улучшаются автоматически на основе данных об условиях эксплуатации, которые они собирают.

Для решения этой инженерной проблемы исследователи Xiaomi представили HarnessX — фреймворк, который рассматривает систему искусственного интеллекта как составной объект и автономно применяет улучшения к ее коду.

В реальных корпоративных приложениях эта автоматизированная адаптация позволяет системам ИИ динамически подстраиваться под специфические требования приложения. Практические тесты показали, что HarnessX обеспечивает существенное повышение производительности в таких областях, как разработка программного обеспечения и взаимодействие с веб-ресурсами.

Результаты показывают, что масштабирование базовой модели — не единственный путь к повышению производительности ИИ, и для моделей меньшего размера это может быть даже не самым лучшим вариантом. Развитие системы HarnessX привело к среднему увеличению производительности на +14,5% по 15 комбинациям моделей и эталонных моделей; для модели Qwen3.5-9B с открытым весом прирост достиг +44% в задачах планирования с учетом особенностей конструкции.

Проблемы проектирования жгутов проводов

В приложениях искусственного интеллекта возможности базовой модели во многом зависят от окружающей её инфраструктуры. Эта инфраструктура выступает в качестве операционного уровня, преобразующего необработанные выходные данные модели в структурированное, исполняемое поведение агента. Она включает в себя подсказки, интеграцию с внешними инструментами, управление памятью и потоки управления, которые определяют, как система ИИ наблюдает за окружающей средой, рассуждает над проблемой и предпринимает действия.

Поскольку корпоративные агенты берут на себя все более сложные, долгосрочные рабочие процессы, разработка вспомогательных систем стала фундаментальной частью разработки ИИ. Несмотря на свою важность, разработка вспомогательных систем далека от зрелой инженерной дисциплины и представляет собой три ключевые проблемы.

Во-первых, стандартные системы статичны и разрабатываются вручную. Любое изменение базовой модели, внедрение новых инструментов или переход к другой операционной области требуют индивидуальной, ручной переработки кода. Традиционные системы не имеют механизмов для автономного обучения и совершенствования на основе опыта предыдущего использования.

Во-вторых, большинство существующих шаблонов страдают от архитектурной запутанности. Они тесно связаны между собой: шаблоны подсказок, оболочки инструментов, политики повторных попыток и управление памятью в рамках одних и тех же путей выполнения кода. Эта запутанность означает, что изменение одного компонента может незаметно нарушить работу других. Попытка повторного использования шаблона в разных бизнес-областях часто сводится к простому копированию кода, а не к чистой модульной композиции.

Во-третьих, оптимизация базовой модели и программного обеспечения ведется изолированно. Когда инженеры проводят тесты для улучшения программного обеспечения, полученные трассировки выполнения обычно отбрасываются, а не используются в качестве обучающих данных для улучшения модели. Следовательно, обновления модели не приводят к естественным улучшениям программного обеспечения, создавая узкое место, где команды не могут в полной мере использовать оперативные данные своих агентов.

HarnessX: автономная лаборатория для создания агентов искусственного интеллекта.

HarnessX решает инженерные проблемы, возникающие при разработке ремней безопасности вручную, с помощью того, что исследователи называют «единой фабрикой по производству ремней безопасности».

Ключевое нововведение HarnessX заключается в том, что система управления рассматривается как «объект первого класса». С точки зрения разработки программного обеспечения это означает, что система управления представляет собой независимо сериализуемую, модульную и взаимозаменяемую сущность. Разделяя конфигурацию модели (т.е., какая модель ИИ работает) от конфигурации системы управления, инженеры могут беспрепятственно заменять, адаптировать и развивать структуру, не затрагивая базовую модель.

Конструкция HarnessX — HarnessX (источник: arXiv)

HarnessX разбивает поведение агента на различные компоненты, такие как сборка контекста, управление памятью, экосистема инструментов, поток управления и наблюдаемость. Каждое конкретное поведение реализовано в виде «процессора», который подключается к определенным точкам жизненного цикла HarnessX. Такая модульная структура позволяет системе заменять, добавлять или удалять эти процессоры без нарушения работы окружающего конвейера.

Для автоматизации оптимизации этой модульной структуры компания HarnessX представляет AEGIS — механизм эволюции, основанный на трассировке. AEGIS рассматривает адаптацию жгута проводов как задачу обучения с подкреплением (RL) для различных символических компонентов жгута.

Рассмотрение оптимизации страховочного троса как задачи обучения с подкреплением вводит три проблемы, с которыми исследователям пришлось бороться при разработке системы:

Использование обходных путей в качестве поощрения: система может использовать упрощенные способы решения задачи вместо того, чтобы действительно ее решать.
Катастрофическое забывание: редактирование, устраняющее закономерность ошибок в одной области, может незаметно нарушить ранее решенный рабочий процесс в другой.
Недостаточное исследование: система может вносить незначительные корректировки в настройки, а не исследовать новые, структурно более совершенные конфигурации инструментов.

Для предотвращения этих проблем AEGIS использует полную наблюдаемость трассировки и четырехэтапный конвейер обработки данных:

Digester: Сжимает трассировки выполнения в структурированные сводки для определения места сбоя агента.
Планировщик: Анализирует эти сводки, чтобы система могла изучать структурные изменения, а не просто вносить локальные корректировки в подсказки.
Evolver: Генерирует изменения в коде и тесты, чтобы гарантировать их корректную работу перед развертыванием.
Критик и шлюз: Критик оценивает изменения для выявления манипуляций с вознаграждением, в то время как детерминированный шлюз отклоняет любое обновление, которое приводит к регрессии в ранее решенной задаче, чтобы предотвратить катастрофическое забывание.

HarnessX выходит на быстрорастущую область исследований в сфере самосовершенствующихся систем упряжи, но ее отличает совместная эволюция моделей упряжи.

Исследователи подчеркивают, что оптимизация любого из компонентов по отдельности в конечном итоге приводит к тупику. Развитие только программного обеспечения приводит к ограничению возможностей, если базовой модели не хватает способности к рассуждению для использования новых инструментов. Обучение только модели приводит к ограничению возможностей обучения, если программное обеспечение никогда не побуждает модель использовать свои расширенные возможности.

HarnessX сочетает эволюцию системы управления с обучением модели. Траектории выполнения, генерируемые во время адаптации системы к задачам, преобразуются в сигналы обучения с подкреплением для базовой модели. Каждый раз, когда система управления улучшает свою стратегию, модель одновременно учится лучше использовать эту новую стратегию, преодолевая ограничения возможностей традиционной разработки агентов ИИ.

HarnessX делает эту коэволюцию возможной благодаря кросс-функциональной GRPO (Group Relative Policy Optimization). GRPO — это популярный алгоритм обучения с подкреплением, используемый для тренировки моделей рассуждений, таких как DeepSeek-R1.

При тонкой настройке модели, GRPO, использующая разные версии приложений, объединяет траектории выполнения агента для одной и той же задачи. Это позволяет базовой модели учитывать изменения в стратегии высокого уровня, такие как использование новой конечной точки API или управление бюджетом выполнения, а не просто изучать незначительные вариации в формулировках подсказок.

HarnessX в действии на отраслевых стандартах.

Для подтверждения практической полезности HarnessX исследователи протестировали его на пяти тестовых задачах, включающих разработку программного обеспечения, многоэтапный диалог со службой поддержки клиентов, веб-навигацию, открытое многошаговое рассуждение и воплощенное планирование.

Они разделили ИИ на две роли. «Мета-агент», работающий на базе Claude Opus 4.6, анализировал логи и писал код для развития вспомогательных систем. «Агенты задач» выполняли фактические рабочие процессы. Чтобы доказать, что фреймворк не зависит от модели, они протестировали его на трех различных моделях рабочих процессов: Claude Sonnet 4.6, GPT-5.4 и открытой модели Qwen3.5-9B.

HarnessX сравнивали с двумя основными базовыми моделями. Первая представляла собой статическую тестовую среду, отражающую то, как большинство предприятий сегодня развертывают ИИ, используя созданные вручную, замороженные настройки с подсказками и инструментами, специфичными для бенчмарка. Вторая — это SDK Claude Code, базовая модель, представляющая собой эволюционирующий процесс с одним агентом, для проверки того, превосходит ли сложный четырехэтапный конвейер AEGIS по производительности итерацию кода с помощью одной языковой модели.

Динамическая модификация ремней безопасности обеспечивает значительное улучшение характеристик на той же базовой модели. HarnessX улучшил производительность в 14 из 15 комбинаций модель-бенчмарк. Во всех тестах модификация ремней безопасности привела к среднему абсолютному увеличению производительности на +14,5%.

Наиболее слабые модели получили наибольшую выгоду от улучшения динамических характеристик подвески. Модель Qwen3.5-9B с открытым шасси показала увеличение производительности на +44,0% в бенчмарке ALFWorld по планированию перевозок и увеличение на +18,2% в бенчмарке SWE-bench Verified для разработки программного обеспечения.

Коэволюция также оказалась весьма эффективной. Когда исследователи обучили базовую модель, используя данные, полученные в процессе эволюции страховочной системы, они увидели дополнительное повышение производительности в среднем на +4,7%. Наибольший потенциал достигается при одновременном улучшении как страховочной системы, так и модели. Прирост производительности за счет коэволюции наблюдается только в моделях с открытыми весами.

Эксперименты, подтвержденные личными наблюдениями, показывают, как HarnessX решает сложные проблемы при создании агентских систем для решения реальных задач. Например, в бенчмарке GAIA, определяющем многошаговое логическое мышление, агент постоянно терпел неудачу, потому что используемый им инструмент для парсинга Википедии в безголовом браузере выдавал ошибку по истечении времени ожидания на ресурсоемком JavaScript-интерфейсе сайта. HarnessX проанализировал трассировки выполнения, диагностировал ошибку и разработал новый инструмент, который полностью обходил браузер и напрямую обращался к API MediaWiki за обычным текстом. Он установил этот инструмент в систему и мгновенно разблокировал задачи, которые ранее давали сбой.

В ходе тестирования электронной коммерции в WebShop ИИ-агент часто застревал в циклах пагинации, бесконечно нажимая «следующая страница» и переформулируя поисковые запросы, так и не совершив покупку. Вместо того чтобы просто корректировать подсказку, HarnessX разработала консультативный процессор, который обнаруживал, когда агент повторял действия навигации. Он внедрял предупреждение в контекст, чтобы заставить принять решение, устраняя зацикливание и повышая производительность.

Ограничения автоматизированного проектирования жгутов проводов.

Важно отметить, что в настоящее время система опирается на мощные модели, выступающие в роли мета-агента, переписывающего код системы. В своих экспериментах исследователи использовали модели с замкнутой границей, такие как модель Клода Опуса. Модели с открытыми весами быстро совершенствуются, но их способность выступать в роли мета-агента остается непроверенной.

Ещё одним ограничением, которое стоит учитывать, являются внутренние возможности используемых моделей. Если базовая модель задачи принципиально слишком слаба для выполнения сложных рабочих процессов, предлагаемых новой системой HarnessX, она не сможет улучшить общие возможности агента (исследователи наблюдали это на примере модели Qwen3.5-9B в тестах SWE-bench).

Несмотря на эти ограничения, HarnessX убедительно доказывает, что разработка вспомогательного программного обеспечения — а не только масштабирование моделей — является рычагом, который специалисты могут использовать уже сейчас. Для команд, использующих небольшие модели с открытыми весами в сложных рабочих процессах, преимущества здесь достаточно велики, чтобы оправдать оценку эволюции вспомогательного программного обеспечения в качестве первого шага, прежде чем переходить к более дорогостоящей модели передового уровня. Исследователи планируют опубликовать код в будущем обновлении.

Transform: Посмотрите, кто участвует в CTA

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Проблемы проектирования жгутов проводов

HarnessX: автономная лаборатория для создания агентов искусственного интеллекта.

HarnessX в действии на отраслевых стандартах.

Ограничения автоматизированного проектирования жгутов проводов.

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

Портативный проектор Beem 540 с автофокусом и телескопической стойкой

GALAX выпустила GeForce RTX 5060 Ti 16GB в однослотовом дизайне

Частота обновления монитора Philips Evnia 27M2N5500XD достигает 1000 Hz

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email