Открытое программное обеспечение SkillOpt от Microsoft автоматически повышает навыки агентов ИИ без изменения весовых коэффициентов модели.
Бен Диксон

Источник изображения: VentureBeat с ChatGPT
Навыки агентов стали важной частью реальных приложений ИИ, предоставляя механизм — набор инструкций, обычно сохраненных в папке с текстовыми файлами Markdown (.md), — позволяющий моделям адаптироваться к конкретным сценариям использования в масштабах предприятия и сложным рабочим процессам.
Однако оптимизация этих навыков — медленный и ненадежный процесс, поскольку их нельзя обучить так же, как параметры базовой модели ИИ. Вместо этого пользователям обычно приходится обновлять их вручную, заново вводя инструкции в каждый файл, словно в игре в угадывание, какие изменения могут улучшить производительность агентного ИИ и уменьшить количество ошибок.
SkillOpt, новая платформа с открытым исходным кодом (лицензия MIT), разработанная Microsoft, делает еще лучше: она представляет оптимизатор, предназначенный для навыков агентов, превращая документ .md с навыками агента в обучаемый объект, который развивается на основе обратной связи о производительности.
В нем используется оптимизация в стиле глубокого обучения, позволяющая ИИ систематически исследовать изменения в документе и находить наилучшую комбинацию инструкций. Что наиболее важно, эта процедурная адаптация осуществляется без изменения весов базовой модели.
В различных отраслевых тестах SkillOpt превосходит существующие базовые показатели, значительно повышая точность таких моделей, как GPT-5.5 и Qwen. В результате получается набор компактных, переносимых артефактов навыков, позволяющих агентам ИИ легко адаптироваться к новым областям.
Задача оптимизации навыков агентов
Навыки агентов преобразуют процедурные знания в спецификации на естественном языке, включая эвристические алгоритмы предметной области, политики использования инструментов, ограничения на выходные данные и известные режимы отказов. Эти навыки обеспечивают внешний интерфейс для адаптации агентов к сложным корпоративным рабочим процессам. На практике навыки агентов хранятся в виде текстовых документов и вставляются в контекст агента перед выполнением.
Одно из ключевых преимуществ навыков заключается в том, что они позволяют настраивать поведение базовой модели без изменения её весов. Однако сам документ с навыками необходимо корректировать и оптимизировать, чтобы добиться наилучшей производительности от агента.
В то время как глубокое обучение опирается на строгий математический контроль для обеспечения стабильности, разработка инструкций, предоставляемых человеком, часто основана на методе проб и ошибок. При попытке автоматического обновления документа с навыками на основе обратной связи отсутствие математической дисциплины делает текст крайне нестабильным.
Ифан Ян, старший инженер-программист в Microsoft Research Asia, рассказал VentureBeat, что проблема заключается не в внесении изменений, а в обеспечении их математической обоснованности.
«Критическая точка заключается не в том, может ли команда изменить навык, а в том, что она не может гарантировать, что это изменение приведет к улучшению», — сказал Ян. «Повторяются три режима сбоев: отсутствие контроля шага изменения, поэтому навыки смещаются; отсутствие проверки, поэтому исправление, которое кажется разумным, вносится в код и может незаметно ухудшить производительность; и отсутствие негативной памяти, поэтому одна и та же неудачная правка постоянно возвращается».

SkillOpt (источник: arXiv)
Чтобы проиллюстрировать, насколько легко может снизиться производительность, если изменения не подтверждены математическими методами, Ян отметил, что «незапланированная переработка привела к снижению результатов GPT-5.5 в SpreadsheetBench с 41,8 до 41,1».
По словам Янга, эти виды сбоев усиливаются в многоэтапных рабочих процессах, «потому что именно там модели с нулевым уровнем значимости наиболее слабы. Не с точки зрения рассуждений, а с точки зрения процедурной дисциплины: формата, самопроверки, политики использования инструментов».
До появления SkillOpt навыки агентов в основном создавались вручную, генерировались за один раз или развивались посредством слабо контролируемых процессов самокоррекции, которые не могли надежно улучшаться при наличии обратной связи.
Методы оптимизации подсказок, такие как TextGrad и GEPA, рассматривают языковые артефакты как оптимизируемые объекты и используют обратную связь по траектории для развития подсказок, но они сосредоточены на конфигурациях отдельных подсказок, а не на создании постоянных, многократно используемых артефактов навыков.
Между тем, методы развития и обнаружения навыков, такие как EvoSkill и Trace2Skill, преобразуют опыт выполнения агентами заданий в уроки траектории для уточнения папок навыков, создания библиотек, специфичных для предметной области, или выполнения эволюционного поиска.
Ни один из них не применяет методы управления, характерные для глубокого обучения, такие как скорость обучения, контрольные точки проверки и импульс, которые необходимы для непрерывного обучения одного компактного документа, демонстрирующего навыки.
Внедрение математической дисциплины в текст.
SkillOpt оптимизирует текстовый документ с помощью итеративного цикла «предложение-тестирование», который разделяет модель, выполняющую задачи, и модель, оптимизирующую навык. Процесс разворачивается в несколько этапов:
-
SkillOpt начинается с исходного документа, описывающего навык, и замороженной целевой модели (или среды выполнения), где целевая модель выполняет ряд задач для генерации траекторий выполнения, которые служат доказательством для текущего шага.
-
Автономная модель оптимизации анализирует эти траектории, разделяя успешные и неудачные случаи на мини-пакеты. Анализ мини-пакета помогает модели выявлять систематические процедурные ошибки, а не единичные аномалии. На основе этих закономерностей оптимизатор предлагает структурные изменения (добавление, удаление или замена) в документе, описывающем навыки.
-
Предложенные правки проверяются на наличие дубликатов или противоречий, после чего оптимизатор ранжирует эти кандидаты по ожидаемой полезности.
-
Вместо применения всех предложенных изменений, SkillOpt ограничивает список максимальным объемом правок для данного шага, генерируя потенциальный навык.
-
Кандидатский навык оценивается на отложенном наборе данных для валидации с использованием целевой модели. Если кандидат улучшает результат валидации, он принимается и становится новым текущим навыком. Если же он не проходит проверку, правки отклоняются и отправляются в буфер отклоненных правок, обеспечивая отрицательную обратную связь, чтобы оптимизатор знал, что не следует повторять эту ошибку.
SkillOpt напрямую решает проблему обработки текста как обучаемого объекта, используя математические концепты из глубокого обучения. Создатели отмечают, что «аналогия с глубоким обучением носит скорее оперативный, чем декоративный характер», что помогает избежать проблем нестабильности, связанных с другими методами оптимизации.

Структура SkillOpt (источник: arXiv)
Бюджет правок служит своего рода индикатором скорости обучения. Ограничивая количество одновременно применяемых правок, предотвращается слишком сильное отклонение версии навыка от предыдущего состояния, что обеспечивает преемственность и позволяет осваивать новые процедуры.
Подобно проверке ошибки валидации в глубоком обучении, строгий отбор примеров гарантирует, что правдоподобно звучащие текстовые правки сохраняются только в том случае, если они математически улучшают фактическую производительность агента на валидационной выборке.
В конце эпохи SkillOpt выполняет медленное обновление, сравнивая задачи, относящиеся к предыдущей и текущей эпохам. Это действует как инерционный фактор, перенося на следующий этап устойчивые процедурные уроки с длительным горизонтом, изолируя их от быстрых пошаговых изменений.
Применение SkillOpt на практике
Для оценки эффективности метода на практике исследователи протестировали SkillOpt на различных моделях, начиная от крупномасштабных моделей, таких как GPT-5.5, и заканчивая более мелкими закрытыми и открытыми моделями, включая GPT-5.4-mini и Qwen3.5-4B. Они также развернули навыки в различных средах выполнения, используя как обычный чат, так и сложные среды программирования, такие как Codex CLI и Claude Code.
Оценка охватывала различные отраслевые критерии, включая ответы на вопросы в один раунд, генерацию кода в несколько раундов с использованием инструментов и многомодальное осмысление документов. SkillOpt сравнивался с несколькими базовыми показателями, начиная от настроек по умолчанию без навыков и заканчивая навыками, написанными людьми, и навыками, сгенерированными с помощью LLM за один раз. Он также сравнивался с передовыми методами оптимизации подсказок и развития навыков, в частности, с Trace2Skill, TextGrad, GEPA и EvoSkill.
SkillOpt показал превосходные результаты по всем параметрам, продемонстрировав высокую эффективность во всех 52 оцененных комбинациях модели, эталонного теста и вспомогательного инструмента. Он был особенно эффективен с моделями, находящимися на рубеже научных открытий, обеспечив среднее абсолютное улучшение на +23,5 балла по сравнению с базовым вариантом без использования навыков на GPT-5.5. Кроме того, SkillOpt превзошел гипотетический базовый вариант, который выбирает лучший конкурирующий метод для каждой задачи.
Небольшие целевые модели продемонстрировали огромный относительный прирост, доказав, что компактный текстовый файл может предоставить процедурные знания, которых не хватает небольшим моделям в их весах. Например, GPT-5.4-nano почти вдвое улучшила свои результаты в многомодальном тестировании документов и втрое — в тестировании на воплощенное взаимодействие и последовательное принятие решений.
Эти академические критерии соответствуют критическим проблемам предприятий. Модели с нулевым количеством примеров часто дают ложные представления о форматировании или не могут должным образом использовать инструменты в многоэтапных сценариях. Ян объяснил, что наибольший скачок в производительности произошел в операциях, которые предприятиям исторически трудно надежно автоматизировать.
«Извлечение данных из документов… точные цифры из контрактов, счетов-фактур и форм — автоматизация обработки счетов к оплате, претензий, соответствия требованиям», — сказал Ян. «Повышается надежность: точное форматирование, самопроверка, проверяемые результаты. И выгода достигается за счет освоения процедуры, а не запоминания ответов».
Для корпоративных специалистов истинная ценность SkillOpt заключается в его портативности, эффективности и совместимости с существующей инфраструктурой. Эксперименты подтверждают, что фреймворк не зависит от используемой платформы. Помимо базового чата, тот же цикл оптимизации был успешно интегрирован в среды выполнения с поддержкой инструментов, такие как Codex CLI и Claude Code, со значительным улучшением показателей в отраслевых бенчмарках.
Разработчики могут обучить навык, используя один цикл выполнения, и развернуть его в другом. Например, навык работы с электронными таблицами, полностью обученный в цикле Codex, был перенесен непосредственно в Claude Code и обеспечил прирост в +59,7 пунктов по сравнению с базовым показателем Claude Code без каких-либо дополнительных изменений.
Артефакты SkillOpt также легко переносятся на модели разных масштабов. Навык, оптимизированный для GPT-5.4, был применен к более мелким моделям GPT-5.4-mini и GPT-5.4-nano с положительными результатами, что доказывает, что изученные процедуры кодируют многократно используемые рабочие процессы, а не просто используют особенности архитектуры конкретной модели.
Наконец, данная структура отличается высокой эффективностью в плане использования токенов и пространства контекстного окна. Во всех тестовых сценариях количество развернутых навыков никогда не превышало 2000 токенов, при этом средняя длина составляла примерно 920 токенов. Это приводит к созданию легко читаемых и поддающихся аудиту артефактов, которые специалист может проверить и отредактировать за считанные минуты.
Стратегии внедрения и «подводные камни» предприятия
Для руководителей технологических компаний внедрение новой структуры требует понимания накладных расходов и ограничений. Хотя в исследовательской работе отмечается, что количество обучающих токенов может достигать 210 миллионов для академических бенчмарков, в реальности для повседневного использования в корпоративной среде их гораздо меньше. Высокое количество токенов в тестировании в значительной степени объясняется повторной оценкой огромных отложенных тестовых наборов.
«Основная подготовительная работа — это проверка и выбор репрезентативного контрольного образца. Оптимизатор — это легковесная среда; инженерная работа заключается в разработке оценочного инструмента», — сказал Ян. Он добавил, что для повседневного использования «в таких фреймворках, как GBrain, где обновления SkillOpt работают на основе Claude Sonnet, обучение навыка для одной задачи в среднем обходится всего в 1–5 долларов». Эти затраты на оптимизацию — это единовременная плата, которая полностью амортизируется при развертывании.
Однако для эффективной работы этой системы требуются определенные условия, а именно несколько десятков репрезентативных примеров и оцениваемый сигнал обратной связи. Командам следует избегать применения SkillOpt к задачам с открытым концом или субъективным оцениванием. «Без надежного автоматического оценщика приходится разрабатывать систему оценки, основанную на человеческом факторе или модели, и следить за ее стабильностью», — сказал Ян.
SkillOpt также легко интегрируется с существующими стеками оркестрации, устраняя одно из главных препятствий на пути внедрения. Например, разработчики, уже использующие компиляторы конвейеров, могут гармонично запускать обе системы. «DSPy — это другой, дополнительный слой, — сказал Ян. — Он компилирует декларативные конвейеры языковых моделей и оптимизирует структуру программы; SkillOpt оптимизирует внешнее состояние навыков, загружаемое замороженным агентом. Их можно запускать вместе».
В перспективе разработчики открытого программного обеспечения уже планируют периодическое обновление SkillOpt для анализа прошлых траекторий своих агентов, создавая небольшую экосистему самооптимизирующихся плагинов для агентов. Эта непрерывная обратная связь представляет собой значительный сдвиг в том, как системы искусственного интеллекта адаптируются.
«Ценная версия самосовершенствования — это когда агент самостоятельно открывает знания для улучшения собственного поведения и пользовательского опыта, находясь под контролем и проверкой», — сказал Ян. «Навыки — это самый быстрый, дешевый и обратимый первый шаг, и тот же образ мышления указывает на то, что агенты в конечном итоге оптимизируют себя, вплоть до собственного веса».

Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com
Похожие записи
Похожие записи
Руководство по анализу выживаемости с использованием Python: применение моделей «время до события» для прогнозирования продолжительности жизни клиента.
12.04.2026
Как агенты искусственного интеллекта изменят работу в области науки о данных в 2026 году
18.05.2026
Меня немного триггерит, когда современные нейросети называют искусственным интеллектом
05.12.2025Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
