Изображение предоставлено VentureBeat с ChatGPT
Хотите получать более полезную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас
Исследователи из Salesforce и Университета Южной Калифорнии разработали новую технологию, которая дает агентам, использующим компьютер, возможность выполнять код, одновременно работая с графическими пользовательскими интерфейсами (GUI) , то есть писать сценарии и одновременно перемещать курсор и/или нажимать кнопки в приложении, объединяя лучшее из обоих подходов для ускорения рабочих процессов и уменьшения количества ошибок.
Этот гибридный подход позволяет агенту обходить неэффективные щелчки мышью для задач, которые можно лучше выполнить с помощью кодирования.
Система, получившая название CoAct-1, устанавливает новые стандарты в ключевых показателях эффективности агентов, превосходя другие методы и при этом требуя значительно меньше шагов для выполнения сложных задач на компьютере.
Это обновление может проложить путь к более надежной и масштабируемой автоматизации агентов со значительным потенциалом для реальных приложений.
Масштабирование ИИ достигает предела
Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:
- Превращение энергии в стратегическое преимущество
- Разработка эффективного вывода для реального увеличения пропускной способности
- Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ
Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO
Хрупкость агентов искусственного интеллекта, управляемых по принципу «укажи и щелкни»
Агенты, использующие компьютер, обычно полагаются на модели «зрение-язык» и «зрение-язык-действие» (VLM или VLA) для восприятия экрана и выполнения действий, имитируя то, как человек использует мышь и клавиатуру.
Хотя эти агенты с графическим интерфейсом могут выполнять множество задач, они часто дают сбои при столкновении с длительными и сложными рабочими процессами, особенно в приложениях с плотным меню и опциями , например, в офисных пакетах.
Например, задача, включающая поиск определенной таблицы в электронной таблице, ее фильтрацию и сохранение в виде нового файла, может включать длительную и точную последовательность манипуляций с графическим интерфейсом.
Вот тут-то и возникает уязвимость. «В таких сценариях существующие агенты часто сталкиваются с неоднозначностью визуального восприятия (например, с трудом различать визуально похожие значки или пункты меню) и высокой вероятностью совершения любой ошибки в долгосрочной перспективе», — пишут исследователи в своей статье. «Один неправильный щелчок или неправильно понятый элемент интерфейса могут сорвать всю задачу».
Чтобы решить эти проблемы, многие исследователи сосредоточились на дополнении агентов графического интерфейса планировщиками высокого уровня.
Эти системы используют мощные модели рассуждений, такие как o3 от OpenAI, для разложения общей цели пользователя на последовательность более мелких и более управляемых подзадач.
Хотя этот структурированный подход повышает производительность, он не решает проблему навигации по меню и нажатия кнопок, даже для операций, которые можно было бы выполнить более напрямую и надежно с помощью нескольких строк кода.
CoAct-1: Многоагентная команда для решения компьютерных задач
Чтобы устранить эти ограничения, исследователи создали CoAct-1 (компьютерный агент с кодированием в качестве действий), систему, призванную «объединить интуитивные, человекоподобные преимущества манипуляции с графическим пользовательским интерфейсом с точностью, надежностью и эффективностью прямого взаимодействия с системой посредством кода».
Система структурирована как команда из трех специализированных агентов, работающих вместе: оркестратора, программиста и оператора графического интерфейса.

Оркестратор выступает в роли центрального планировщика или менеджера проекта. Он анализирует общую цель пользователя, разбивает её на подзадачи и назначает каждую подзадачу наиболее подходящему исполнителю. Он может делегировать внутренние операции, такие как управление файлами или обработка данных, программисту, который пишет и выполняет скрипты на Python или Bash.
Для задач интерфейса, требующих нажатия кнопок или навигации по визуальным интерфейсам, он обращается к GUI Operator — агенту на базе VLM.
«Такое динамическое делегирование позволяет CoAct-1 стратегически обходить неэффективные последовательности графического интерфейса в пользу надежного однократного выполнения кода там, где это необходимо, при этом по-прежнему используя визуальное взаимодействие для задач, где это необходимо», — говорится в статье.
Рабочий процесс итеративный. После того, как программист или оператор графического интерфейса завершает подзадачу, он отправляет сводку и снимок экрана текущего состояния системы обратно в Orchestrator, который затем принимает решение о следующем шаге или завершает задачу.
Агент-программист использует LLM для генерации своего кода и отправляет команды интерпретатору кода для тестирования и уточнения своего кода в течение нескольких раундов.
Аналогично, оператор графического интерфейса использует интерпретатор действий, который выполняет его команды (например, щелчки мыши, ввод текста) и возвращает снимок экрана, позволяющий увидеть результат его действий. Оркестратор принимает окончательное решение о продолжении или остановке задачи.

Более эффективный путь к автоматизации
Исследователи протестировали CoAct-1 на OSWorld — комплексном тесте, включающем 369 реальных задач в браузерах, IDE и офисных приложениях.
Результаты показывают, что CoAct-1 устанавливает новые стандарты, достигая показателя успешности в 60,76%.
Рост производительности оказался наиболее значительным в категориях, где программное управление обеспечивает явное преимущество, таких как задачи на уровне ОС и рабочие процессы нескольких приложений.
Например, рассмотрим задачу уровня ОС, например, поиск всех файлов изображений в сложной структуре папок, изменение их размера, а затем сжатие всего каталога в один архив.
Агенту, основанному исключительно на графическом интерфейсе, пришлось бы выполнять длинную и трудоемкую последовательность щелчков и перетаскиваний , открывая папки, выбирая файлы и перемещаясь по меню, с высокой вероятностью ошибки на каждом этапе.
CoAct-1, напротив, может делегировать весь этот рабочий процесс своему агенту-программисту, который может выполнить задачу с помощью одного надежного скрипта.

Помимо более высокой доли успешных попыток, система значительно более эффективна. CoAct-1 решает задачи в среднем всего за 10,15 шага, что резко контрастирует с 15,22 шагами, необходимыми ведущим агентам с графическим интерфейсом, таким как GTA-1.
В то время как другие агенты, такие как CUA 4o от OpenAI, в среднем делали меньше шагов, их общий уровень успеха был намного ниже, что указывает на то, что эффективность CoAct-1 сочетается с большей результативностью.
Исследователи выявили чёткую тенденцию: задачи, требующие большего количества действий, чаще терпят неудачу. Сокращение количества шагов не только ускоряет выполнение задачи, но и, что ещё важнее, минимизирует вероятность ошибки.
Таким образом, поиск способов сжатия нескольких шагов графического интерфейса в одну программную задачу может сделать этот процесс более эффективным и менее подверженным ошибкам.
Как заключают исследователи, «Эта эффективность подчеркивает потенциал нашего подхода, позволяющий проложить более надежный и масштабируемый путь к всеобщей компьютерной автоматизации».

От лаборатории до корпоративного рабочего процесса
Потенциал этой технологии выходит за рамки общего повышения производительности. Для руководителей предприятий ключ к успеху лежит в автоматизации сложных многоинструментальных процессов, где полный доступ к API — это роскошь, а не гарантия.
Жан Сюй, соавтор статьи и директор по исследованиям прикладного ИИ в Salesforce, называет поддержку клиентов ярким примером.
«Агент службы поддержки использует множество различных инструментов — как общих, таких как Salesforce, так и отраслевых, например, EPIC для здравоохранения, а также множество специализированных инструментов — для изучения запроса клиента и формулирования ответа», — рассказал Сюй VentureBeat. «Некоторые инструменты имеют доступ к API, а другие — нет. Это идеальный вариант использования, который потенциально может выиграть от нашей технологии: агент, использующий вычислительные ресурсы, который использует всё, что доступно на компьютере, будь то API, код или просто экран».
Сюй также видит ценные приложения в продажах, например, для масштабного поиска клиентов и автоматизации бухгалтерского учета, а также в маркетинге для решения таких задач, как сегментация клиентов и создание активов для кампаний.
Решение реальных проблем и необходимость человеческого контроля
Хотя результаты теста OSWorld выглядят солидно, корпоративные среды гораздо более запутанны, заполнены устаревшим программным обеспечением и непредсказуемыми пользовательскими интерфейсами.
Это поднимает важные вопросы о надежности, безопасности и необходимости человеческого контроля.
Основная задача — обеспечить, чтобы агент Orchestrator делал правильный выбор при работе с незнакомым приложением. По словам Сю, для того, чтобы сделать агентов, подобных CoAct-1, надёжными для специализированного корпоративного программного обеспечения, необходимо их обучение с обратной связью в реалистичных, моделируемых условиях.
Цель состоит в том, чтобы создать систему, в которой «агент мог бы наблюдать за работой агентов-людей, обучаться в «песочнице», а после запуска в эксплуатацию продолжать решать задачи под руководством и при поддержке агента-человека».
Возможность агента-программиста выполнять собственный код также создаёт очевидные проблемы безопасности. Что мешает агенту выполнить вредоносный код на основе неоднозначного запроса пользователя?
Сюй подтверждает, что надёжные меры сдерживания крайне важны. «Контроль доступа и изоляция — это ключ к успеху», — сказал он, подчеркнув, что человек должен «понимать последствия и предоставлять ИИ доступ в целях безопасности».
«Песочница» и защитные барьеры будут иметь решающее значение для проверки поведения агента перед его развертыванием в критически важных системах.
В конечном счёте, в обозримом будущем преодоление неоднозначности, вероятно, потребует участия человека в процессе. Отвечая на вопрос об обработке неопределённых запросов пользователей, что также было затронуто в статье, Сюй предложил поэтапный подход. «Я считаю, что для начала нужно участие человека», — отметил он.
Хотя некоторые задачи со временем могут стать полностью автономными, для высокорискованных операций человеческая проверка останется критически важной. «Некоторые критически важные задачи могут всегда требовать одобрения человека».
Источник: venturebeat.com



























