Как обучить ИИ работать за компьютером

Ноя 14, 2025 0

Агенты, которые умеют управлять компьютером, часто не справляются с, казалось бы, простым шагом: найти на экране элемент, описанный в человеческой инструкции. Сделать такую привязку особенно трудно на интерфейсах с обилием мелких элементов, похожих панелей, высоким разрешением, помехами и артефактами. Команда GroundCUA показывает, как решить эту узкую, но важную задачу — сделать привязку языка к интерфейсу достаточно точной и надёжной, чтобы агент уверенно выполнял действия шаг за шагом.

Обзор датасета GroundCUA и моделей GroundNext. Демонстрации задач по работе с компьютером записываются как скриншоты с метаданными и превращаются в инструкции для привязки к UI.

О чем идет речь

Исследователи предложили набор данных GroundCUA для привязки десктопных интерфейсов, собранный из реальных демонстраций экспертов. Поддерживает 87 приложений в 12 категориях, содержит 56 тысяч скриншотов и более 3,56 млн тщательно проверенных аннотаций практически каждого видимого элемента. Половина элементов имеют категорию, а разрешение изображений варьируется от 0,39 до 7 мегапикселей. В среднем на кадре 64 аннотированных объекта: много очень маленьких боксов, много категорий. Получился неплохой срез работы за компьютером.

Как собрали данные и инструкции

Для GroundCUA не нужен случайный обход интерфейсов: аннотаторы выполняют повседневные задачи в разных программах, записывают экран, выбирают ключевые кадры и размечают каждый элемент боксом и подписью. Длинные подписи дописывают с помощью OCR. Из получившейся плотной разметки большой языковой моделью формируют три типа инструкций: прямые — по атрибутам и окружению, функциональные — по назначению, пространственные — относительно якорей. Получается 700 тыс. ситуаций для дообучения и 10 тыс. — для дообучения с подкреплением.

Почему это работает

Авторы считают, что вместо миллиона синтетических сцен — лучше десятки тысяч реальных, но плотно и подробно размеченных кадров. Это учит модель справляться с неоднозначностями, мелкими и визуально похожими элементами.

Сравнение датасетов: распределение пикселей и относительные площади боксов

Распределение числа аннотаций на одно изображение

Как учили модели

Поверх Qwen2.5-VL-Instruct авторы обучили две версии GroundNext с 3 и 7 млрд параметров. Использовали два этапа:

Supervised Fine-Tuning на 700 тыс. пар скриншот-инструкция. Модель по инструкции предсказывает координаты точки на экране. Отложенные 10 тыс. ситуаций для дообучения с подкреплением. Награда задаётся дискретной функцией расстояния от целевого бокса: штраф — снаружи, поощрение — ближе к центру. Эта схема заметно упрощает RL и повышает качество на сложных интерфейсах.
Модель получает дополнительное преимущество от обучения с подкреплением, при этом обучение с подкреплением становится легче благодаря хорошо подобранному пространству действий и функции вознаграждения.

Средние показатели SFT (оранжевым) и прирост от RL (синим) на бенчмарках

Что получилось в цифрах

На пяти датасетах для привязки десктопных интерфейсов модель достигает базового уровня, обучаясь на 700 тыс. примеров против 9 млн у JEDI.

Обучение с подкреплением дает небольшой и стабильный прирост поверх SFT.
На агентном бенчмарке OSWorld-Verified с планировщиком o3 модель показывает 50.6, обгоняя несколько более крупных моделей и находясь чуть ниже JEDI-7B, но требуя гораздо меньше ресурсов для дообучения. Получается хорошо, ведь используется гораздо меньше данных.
Заметен перенос на мобильные и веб-интерфейсы: на соответствующих бенчмарках модель достигает качества, сравнимого с конкурентами, которым дополнительно скармливали соответствующие данные.

Где прирост особенно заметен

На датасетах, связанных с Linux и macOS: там много мелких иконок, и хорошо заметен эффект от ручной разметки. Среди категорий приложений особенно хорошо получаются офисные приложения, приложения для разработки и креатива: много ситуаций, где надо отличать визуально похожие элементы и подписи от контейнеров.

Примеры ошибок: зелёная рамка — эталон, красная точка — предсказание. Видно, как промахи концентрируются возле мелких целей.

Почему это важно

Агенты, которые хорошо справляются с реальными задачами на компьютере, должны не только уметь планировать действия, но и попадать по нужным элементам так, как просит пользователь. GroundCUA показывает, что широкий охват приложений и плотная разметка важных кадров делает рабочую привязку.

На мой взгляд, будущее компьютерных агентов зависит не от размера моделей, а от точного соответствия языка интерфейсу — и GroundCUA делает важный шаг именно в эту сторону.

📜 Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

Метки:

Как новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

14.11.2025

«Меня привлек шанс решить реальную задачу»

СЛЕДУЮЩАЯ ЗАПИСЬ

14.11.2025

Производители оперативной памяти не планируют увеличивать производство

proizvoditeli operativnoj pamjati ne planirujut uvelichivat proizvodstvo 39171db

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Взаимодействие человека и машины погружается под воду.

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

ЧИТАТЬ

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Как обучить ИИ работать за компьютером

О чем идет речь

Как собрали данные и инструкции

Почему это работает

Как учили модели

Что получилось в цифрах

Где прирост особенно заметен

Почему это важно

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в