Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Новый CoAct-1 от Salesforce пишет собственный код для выполнения задач

Авг 25, 2025 0

Содержание

Изображение предоставлено VentureBeat с ChatGPT

Хотите получать более полезную информацию? Подпишитесь на наши еженедельные рассылки, чтобы получать только то, что важно для руководителей в сфере корпоративного ИИ, данных и безопасности. Подпишитесь сейчас

Исследователи из Salesforce и Университета Южной Калифорнии разработали новую технологию, которая дает агентам, использующим компьютер, возможность выполнять код, одновременно работая с графическими пользовательскими интерфейсами (GUI) , то есть писать сценарии и одновременно перемещать курсор и/или нажимать кнопки в приложении, объединяя лучшее из обоих подходов для ускорения рабочих процессов и уменьшения количества ошибок.

Этот гибридный подход позволяет агенту обходить неэффективные щелчки мышью для задач, которые можно лучше выполнить с помощью кодирования.

Система, получившая название CoAct-1, устанавливает новые стандарты в ключевых показателях эффективности агентов, превосходя другие методы и при этом требуя значительно меньше шагов для выполнения сложных задач на компьютере.

Это обновление может проложить путь к более надежной и масштабируемой автоматизации агентов со значительным потенциалом для реальных приложений.

Масштабирование ИИ достигает предела

Ограничения мощности, рост стоимости токенов и задержки в выводе данных меняют корпоративный ИИ. Присоединяйтесь к нашему эксклюзивному салону, чтобы узнать, как обстоят дела у лучших команд:

Превращение энергии в стратегическое преимущество
Разработка эффективного вывода для реального увеличения пропускной способности
Обеспечение конкурентоспособной рентабельности инвестиций с помощью устойчивых систем ИИ

Забронируйте свое место, чтобы оставаться впереди : https://bit.ly/4mwGngO

Хрупкость агентов искусственного интеллекта, управляемых по принципу «укажи и щелкни»

Агенты, использующие компьютер, обычно полагаются на модели «зрение-язык» и «зрение-язык-действие» (VLM или VLA) для восприятия экрана и выполнения действий, имитируя то, как человек использует мышь и клавиатуру.

Хотя эти агенты с графическим интерфейсом могут выполнять множество задач, они часто дают сбои при столкновении с длительными и сложными рабочими процессами, особенно в приложениях с плотным меню и опциями , например, в офисных пакетах.

Например, задача, включающая поиск определенной таблицы в электронной таблице, ее фильтрацию и сохранение в виде нового файла, может включать длительную и точную последовательность манипуляций с графическим интерфейсом.

Вот тут-то и возникает уязвимость. «В таких сценариях существующие агенты часто сталкиваются с неоднозначностью визуального восприятия (например, с трудом различать визуально похожие значки или пункты меню) и высокой вероятностью совершения любой ошибки в долгосрочной перспективе», — пишут исследователи в своей статье. «Один неправильный щелчок или неправильно понятый элемент интерфейса могут сорвать всю задачу».

Чтобы решить эти проблемы, многие исследователи сосредоточились на дополнении агентов графического интерфейса планировщиками высокого уровня.

Эти системы используют мощные модели рассуждений, такие как o3 от OpenAI, для разложения общей цели пользователя на последовательность более мелких и более управляемых подзадач.

Хотя этот структурированный подход повышает производительность, он не решает проблему навигации по меню и нажатия кнопок, даже для операций, которые можно было бы выполнить более напрямую и надежно с помощью нескольких строк кода.

CoAct-1: Многоагентная команда для решения компьютерных задач

Чтобы устранить эти ограничения, исследователи создали CoAct-1 (компьютерный агент с кодированием в качестве действий), систему, призванную «объединить интуитивные, человекоподобные преимущества манипуляции с графическим пользовательским интерфейсом с точностью, надежностью и эффективностью прямого взаимодействия с системой посредством кода».

Система структурирована как команда из трех специализированных агентов, работающих вместе: оркестратора, программиста и оператора графического интерфейса.

8e7497bd57f1a624f5df175d315c96ac — Фреймворк CoAct-1 (источник: arXiv)

Оркестратор выступает в роли центрального планировщика или менеджера проекта. Он анализирует общую цель пользователя, разбивает её на подзадачи и назначает каждую подзадачу наиболее подходящему исполнителю. Он может делегировать внутренние операции, такие как управление файлами или обработка данных, программисту, который пишет и выполняет скрипты на Python или Bash.

Для задач интерфейса, требующих нажатия кнопок или навигации по визуальным интерфейсам, он обращается к GUI Operator — агенту на базе VLM.

«Такое динамическое делегирование позволяет CoAct-1 стратегически обходить неэффективные последовательности графического интерфейса в пользу надежного однократного выполнения кода там, где это необходимо, при этом по-прежнему используя визуальное взаимодействие для задач, где это необходимо», — говорится в статье.

Рабочий процесс итеративный. После того, как программист или оператор графического интерфейса завершает подзадачу, он отправляет сводку и снимок экрана текущего состояния системы обратно в Orchestrator, который затем принимает решение о следующем шаге или завершает задачу.

Агент-программист использует LLM для генерации своего кода и отправляет команды интерпретатору кода для тестирования и уточнения своего кода в течение нескольких раундов.

Аналогично, оператор графического интерфейса использует интерпретатор действий, который выполняет его команды (например, щелчки мыши, ввод текста) и возвращает снимок экрана, позволяющий увидеть результат его действий. Оркестратор принимает окончательное решение о продолжении или остановке задачи.

da94cf72626012b1ceadedef2940f4e1 — Пример CoAct-1 в действии (источник: arXiv)

Более эффективный путь к автоматизации

Исследователи протестировали CoAct-1 на OSWorld — комплексном тесте, включающем 369 реальных задач в браузерах, IDE и офисных приложениях.

Результаты показывают, что CoAct-1 устанавливает новые стандарты, достигая показателя успешности в 60,76%.

Рост производительности оказался наиболее значительным в категориях, где программное управление обеспечивает явное преимущество, таких как задачи на уровне ОС и рабочие процессы нескольких приложений.

Например, рассмотрим задачу уровня ОС, например, поиск всех файлов изображений в сложной структуре папок, изменение их размера, а затем сжатие всего каталога в один архив.

Агенту, основанному исключительно на графическом интерфейсе, пришлось бы выполнять длинную и трудоемкую последовательность щелчков и перетаскиваний , открывая папки, выбирая файлы и перемещаясь по меню, с высокой вероятностью ошибки на каждом этапе.

CoAct-1, напротив, может делегировать весь этот рабочий процесс своему агенту-программисту, который может выполнить задачу с помощью одного надежного скрипта.

Помимо более высокой доли успешных попыток, система значительно более эффективна. CoAct-1 решает задачи в среднем всего за 10,15 шага, что резко контрастирует с 15,22 шагами, необходимыми ведущим агентам с графическим интерфейсом, таким как GTA-1.

В то время как другие агенты, такие как CUA 4o от OpenAI, в среднем делали меньше шагов, их общий уровень успеха был намного ниже, что указывает на то, что эффективность CoAct-1 сочетается с большей результативностью.

Исследователи выявили чёткую тенденцию: задачи, требующие большего количества действий, чаще терпят неудачу. Сокращение количества шагов не только ускоряет выполнение задачи, но и, что ещё важнее, минимизирует вероятность ошибки.

Таким образом, поиск способов сжатия нескольких шагов графического интерфейса в одну программную задачу может сделать этот процесс более эффективным и менее подверженным ошибкам.

Как заключают исследователи, «Эта эффективность подчеркивает потенциал нашего подхода, позволяющий проложить более надежный и масштабируемый путь к всеобщей компьютерной автоматизации».

75c402d07f88e70d8b376ef02c275290 — **CoAct-1 выполняет задачи в среднем за меньшее количество шагов** благодаря разумному использованию кодирования (источник: arXiv)

От лаборатории до корпоративного рабочего процесса

Потенциал этой технологии выходит за рамки общего повышения производительности. Для руководителей предприятий ключ к успеху лежит в автоматизации сложных многоинструментальных процессов, где полный доступ к API — это роскошь, а не гарантия.

Жан Сюй, соавтор статьи и директор по исследованиям прикладного ИИ в Salesforce, называет поддержку клиентов ярким примером.

«Агент службы поддержки использует множество различных инструментов — как общих, таких как Salesforce, так и отраслевых, например, EPIC для здравоохранения, а также множество специализированных инструментов — для изучения запроса клиента и формулирования ответа», — рассказал Сюй VentureBeat. «Некоторые инструменты имеют доступ к API, а другие — нет. Это идеальный вариант использования, который потенциально может выиграть от нашей технологии: агент, использующий вычислительные ресурсы, который использует всё, что доступно на компьютере, будь то API, код или просто экран».

Сюй также видит ценные приложения в продажах, например, для масштабного поиска клиентов и автоматизации бухгалтерского учета, а также в маркетинге для решения таких задач, как сегментация клиентов и создание активов для кампаний.

Решение реальных проблем и необходимость человеческого контроля

Хотя результаты теста OSWorld выглядят солидно, корпоративные среды гораздо более запутанны, заполнены устаревшим программным обеспечением и непредсказуемыми пользовательскими интерфейсами.

Это поднимает важные вопросы о надежности, безопасности и необходимости человеческого контроля.

Основная задача — обеспечить, чтобы агент Orchestrator делал правильный выбор при работе с незнакомым приложением. По словам Сю, для того, чтобы сделать агентов, подобных CoAct-1, надёжными для специализированного корпоративного программного обеспечения, необходимо их обучение с обратной связью в реалистичных, моделируемых условиях.

Цель состоит в том, чтобы создать систему, в которой «агент мог бы наблюдать за работой агентов-людей, обучаться в «песочнице», а после запуска в эксплуатацию продолжать решать задачи под руководством и при поддержке агента-человека».

Возможность агента-программиста выполнять собственный код также создаёт очевидные проблемы безопасности. Что мешает агенту выполнить вредоносный код на основе неоднозначного запроса пользователя?

Сюй подтверждает, что надёжные меры сдерживания крайне важны. «Контроль доступа и изоляция — это ключ к успеху», — сказал он, подчеркнув, что человек должен «понимать последствия и предоставлять ИИ доступ в целях безопасности».

«Песочница» и защитные барьеры будут иметь решающее значение для проверки поведения агента перед его развертыванием в критически важных системах.

В конечном счёте, в обозримом будущем преодоление неоднозначности, вероятно, потребует участия человека в процессе. Отвечая на вопрос об обработке неопределённых запросов пользователей, что также было затронуто в статье, Сюй предложил поэтапный подход. «Я считаю, что для начала нужно участие человека», — отметил он.

Хотя некоторые задачи со временем могут стать полностью автономными, для высокорискованных операций человеческая проверка останется критически важной. «Некоторые критически важные задачи могут всегда требовать одобрения человека».

Источник: venturebeat.com

✅ Найденные теги: новости, Новый

Метки:

новости Новый

ПРЕДЫДУЩАЯ ЗАПИСЬ

25.08.2025

Нужна ли философия и этика для жизни и творчества?

СЛЕДУЮЩАЯ ЗАПИСЬ

25.08.2025

Microsoft свернёт поддержку Windows 11 SE уже в следующем октябре

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Новый CoAct-1 от Salesforce пишет собственный код для выполнения задач

Хрупкость агентов искусственного интеллекта, управляемых по принципу «укажи и щелкни»

CoAct-1: Многоагентная команда для решения компьютерных задач

Более эффективный путь к автоматизации

От лаборатории до корпоративного рабочего процесса

Решение реальных проблем и необходимость человеческого контроля

Похожие записи

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в