Модель Alibaba никогда не обучалась как агент, но улучшила показатели работы агентов по семи критериям.
Шон Майкл Кернер
Команда Qwen компании Alibaba во вторник выпустила Qwen-AgentWorld — две модели, обученные не действовать внутри среды агентов, а предсказывать, что эти среды возвращают. Релиз охватывает семь областей в рамках единой архитектуры: MCP, поиск, терминал, разработка программного обеспечения, Android, веб и ОС.
Этот релиз является продолжением недавних усилий Alibaba по внедрению автономных агентов. Qwen3.7-Max, выпущенный в мае, был разработан с учетом возможности автономного выполнения задач в течение 35 часов.
Этот сдвиг направлен на преодоление ограничений, с которыми напрямую сталкиваются команды, обучающие агентов в больших масштабах. Реальные поисковые системы выдают любые доступные результаты, без механизма для внедрения контролируемых условий. Работающие терминалы не позволяют по запросу внедрить условие нехватки места на диске. Обучение агентов ограничено тем, что будет отображаться в производственных средах, без систематического способа выявления крайних случаев, с которыми агентам придется сталкиваться, но которые редко встречаются в процессе обучения.
Исследовательская группа обучала агентов внутри созданного симулятора и обнаружила прирост производительности, превышающий результаты обучения только в реальных условиях. В отдельном тесте использование обучения на основе модели мира в качестве разминки перед тонкой настройкой агентов улучшило производительность по семи показателям, включая три, которые модель никогда не видела во время обучения.
В статье, сопровождающей релиз, был выявлен пробел в предыдущих исследованиях агентов. «Мы утверждаем, что моделирование мира является важнейшим недостающим звеном на пути к созданию универсальных агентов».
Qwen-AgentWorld обучается на том, какие среды возвращаются, а не на том, что должны делать агенты.
Большинство моделей агентов обучаются отвечать на один вопрос: учитывая то, что мне только что показала окружающая среда, что мне следует сделать дальше? Qwen-AgentWorld обучена отвечать на обратный вопрос: учитывая то, что агент только что сделал, что покажет окружающая среда дальше?
Этот обратный подход лежит в основе того, что в статье называется моделью языкового мира: вместо оптимизации выбора действий модель учится предсказывать следующее состояние среды во всех семи областях в рамках единой цели обучения. Предыдущие работы были более узкими: WebWorld, более ранний проект Qwen, опубликованный в феврале, охватывал только веб-среды; модель Agent World Model от Snowflake, опубликованная в том же месяце, генерирует среды на основе кода и SQL, а не обучает модель предсказывать состояния. Qwen-AgentWorld — первая модель, охватывающая семь областей в рамках одной модели, с моделированием среды, заложенным с самого раннего этапа предварительного обучения.
Компания Alibaba обучила обе модели в три этапа на более чем 10 миллионах траекторий взаимодействия с различными средами из реальных запусков агентов. На первом этапе модель обучается поведению различных сред — файловым системам, состояниям терминалов, изменениям DOM в браузере, ответам API. На втором этапе модель учится анализировать дальнейшие действия, прежде чем делать прогнозы. На третьем этапе, обучении с подкреплением, прогнозы уточняются с помощью проверок на основе правил и открытой оценки качества.
Обе модели представляют собой смешанную архитектуру экспертов — на каждый токен активна лишь часть параметров. Модель с 35B активирует 3B параметров, модель с 397B — 17B. Обе поддерживают контекстные окна размером 256K. Для графических интерфейсов пользователей (Android, Web и OS) модели работают на основе текстовых деревьев доступности и иерархий представлений пользовательского интерфейса, а не скриншотов.
Весовые коэффициенты модели 35B и AgentWorldBench доступны в рамках Apache 2.0; весовые коэффициенты модели 397B не опубликованы.
Результаты обучения важнее, чем контрольные показатели.
Результаты тестов показывают, насколько точно модели предсказывают, какие среды будут возвращаться. Результаты обучения показывают, какую реальную ценность представляет эта способность к прогнозированию для команд, разрабатывающих агентов, — и именно эти показатели имеют наибольшее значение.
По данным исследователей, агенты, обученные в контролируемой симуляции, превзошли агентов, обученных в реальных условиях. Введение целенаправленных возмущений — частичных ответов, которые заставляют агента делать дополнительные шаги, и граничных случаев, которые редко встречаются в реальных условиях, — повысило показатель MCPMark с 24,6 до 33,8. В задаче поиска агенты, обученные в полностью вымышленных мирах, перешли к решению реальных задач поиска, повысив показатель WideSearch F1 Item с 34,02 до 50,31 на открытой модели 35B. Отдельный тест на разминку показал, что предварительное обучение модели мира улучшило показатели BFCL v4 с 62,29 до 71,25 и Claw-Eval с 53,60 до 64,88 без тонкой настройки, специфичной для каждого агента.

Исследователи указывают на эталонный показатель и риск переобучения.
Статья вызвала немедленную реакцию исследователей ИИ на платформе X. Высказанные ими опасения касаются того, что специалистам необходимо проверять, прежде чем применять полученные результаты на практике.
Что касается целей обучения и результатов переноса знаний, оценка одного исследователя в области ИИ/машинного обучения была прямой. «Все остальные модели „агентов“ были обучены действовать в реальных условиях», — написал @drawais_ai, имеющий докторскую степень и регулярно анализирующий научные работы по ИИ. «Qwen перевернул вопрос. Они обучили модель предсказывать саму среду… Эти предсказательные знания затем переносятся на задачи агентов даже без какой-либо тонкой настройки, специфичной для конкретного агента». Он назвал результат Controllable Sim RL «подтверждением» утверждения о том, что синтетическое обучение может заменить обучение в реальных условиях в больших масштабах, и отметил, что три из семи показателей переноса знаний были полностью вне области применения.
Разница в результатах, зафиксированная в бенчмарке, сразу же привлекла внимание. «AgentWorldBench — это бенчмарк, разработанный Alibaba и опубликованный в той же статье», — написал @TheSignal_Desk, эксперт по объективной оценке и ключевым показателям в исследованиях ИИ. «Они разработали тест, а затем превзошли его на 0,46».
Методология sim-RL — это результат работы @limalemonnn, который занимается разработкой ИИ-агентов для производственных целей, и он отметил, что прежде чем цитировать заголовок, необходимо провести тщательную проверку. «Агенты, обученные на симуляторе, традиционно переобучаются под особенности симулятора», — написали они. «Если модель мира слишком чистая, агент изучает модель, а не задачу». Они указали на раздел статьи, где представлены данные, которые следует прочитать специалистам, прежде чем применять их на практике.
В данных частично объясняется проблема переобучения. Разница между результатами неконтролируемого и контролируемого обучения с подкреплением в Sim RL (MCPMark 24,6) свидетельствует о том, что успех в значительной степени зависит от механизма управляемости, а не только от точности моделирования. Результат поиска в вымышленном мире, где агенты, обученные в вымышленных средах, переносятся на реальные задачи поиска, является наиболее убедительным доказательством в статье против проблемы переобучения.
Что это значит для команд, создающих конвейеры обработки данных с помощью агентов?
Для команд разработчиков ИИ, создающих и масштабирующих конвейеры обработки данных с использованием агентов, эта работа сигнализирует о значительном сдвиге в подходах к формированию возможностей агентов. Команды, обучающие агентов в больших масштабах, теперь имеют третий вариант между обучением с подкреплением в реальной среде и статическими эталонными тестами: контролируемое моделирование, которое включает в себя граничные случаи, которые не проявятся в производственной среде.
Синтетические среды являются полноценным слоем обучения. Контролируемое моделирование, в котором вводятся условия, не встречающиеся в реальных средах, дополняет обучение с подкреплением в реальной среде, а не является обходным путем.
То, чему модель учится до начала обучения агента, имеет большее значение, чем учитывает большинство конвейеров обработки данных. Результаты, полученные в ходе «разогрева» — повышение производительности на неизвестных эталонных тестах без обучения, специфичного для конкретного агента, — свидетельствуют о том, что привязка к среде должна происходить на более ранних этапах разработки, чем это принято в настоящее время.

Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com
Похожие записи
Оцените материал:
Похожие записи
«Умные» контактные линзы отслеживают внутриглазное давление и доставляют лекарства от глаукомы на ранних стадиях заболевания. В ходе ранних клинических испытаний было установлено, что такие линзы позволяют контролировать внутриглазное давление и доставлять препараты от глаукомы.
12.04.2026
Ученые разработали в лаборатории первую в мире бомбу с черными дырами
14.06.2025
Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
