Image

Как сделать интернет удобным для ИИ-агентов

45030ac31e254bab5d4f31e14df63cfd

Веб-агенты сегодня ведут себя в чужих интерфейсах как нежданные гости: смотрят на скриншоты интерфейса и догадываются, на какие кнопки можно нажимать. Малейшее обновление интерфейса ломает всю логику, повышает цену поддержки пайплайнов, а приватность пользователей страдает. Авторы VOIX предлагают простой, но далеко идущий ответ: пусть сайты сами дают агентам разрешенные действия и описывают (в виде актуального текста) то состояние, которое важно для выбора действий. Это фундамент Agentic Web — сети, где люди и ИИ сотрудничают по прозрачным правилам.

Пример веб-приложения: список дел
Пример веб-приложения: список дел

Что такое VOIX

Фреймворк добавляет всего два тега к HTML:

  • <tool> описывает действие по имени и строго типизированным параметрам. Нажатие на инструмент агентом вызывает бизнес-логику сайта, а результат возвращается сайту с событием return.

  • <context> — компактное текстовое описание состояния, актуальное для выбора действий. Может динамически обновляться по мере работы приложения. Можно также объявить несколько контекстов.

Вместо того, чтобы гадать, какие аффордансы ему доступны, агент читает протоколы: вот, что ты можешь сделать, вот такие параметры и вот, что происходит на странице. Разработчик сайта сохраняет контроль, а агент больше не бродит вслепую по пользовательскому интерфейсу.

Встроенные элементы VOIX в веб-приложении
Встроенные элементы VOIX в веб-приложении

Как это реализовано

Роли разделены прозрачно и наглядно.

  • Сайт — источник правды о своих возможностях, объявляет инструменты и контексты. Дальше работает привычный стек инструментов, от React и Vue до Laravel.

  • Браузерный агент находит <tool>/<context> на странице, показывает их в боковой панели, отдает их текстовое описание LLM и диспатчит вызовы обратно на страницу. В опенсорсной референсной версии это расширение для Chrome.

  • Провайдер инференса, то есть любая LLM. Модель опирается на протоколы, а не на визуальный интерфейс, чтобы выбрать действие и параметры, исходя из пользовательской цели.

Важна приватность. Отправляемый пользователем для инференса диалог сайт не увидит — он уходит напрямую провайдеру LLM. Агент видит ровно те контексты и инструменты, которые сайт им объявил. Пользователь может отключать видимость контекстов в расширении Chrome.

Боковая панель расширения VOIX Reference для Chrome
Боковая панель расширения VOIX Reference для Chrome

Проверка на практике: трехдневный хакатон

16 разработчиков создали шесть приложений с протоколами инструментов и контекстов на трехдневном хакатоне. Инструменты и контексты обычно объявлялись локально в компоненте, а инструменты были видимы только там, где их имело смысл использовать. Например, пользователь мог кликнуть на объект и сказать “поверни это на 45 градусов”, и код инструмента понимал, о каком объекте идет речь.

По опросу SUS (System Usability Scale) получился средний балл 72.34 — “хорошо”. По шкале доверия TOAST(Trust in Open-source Autonomous Systems Test ,шкала оценки доверия к ИИ-системам) пользователи оценили систему как понятную и производительную. Главная сложность была не технической. Участникам было трудно решить, какие инструменты нужно объявлять: нужно выбрать правильный уровень абстракции.

Приложение для графического дизайна демонстрирует синергичное мультимодальное взаимодействие с VOIX: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.
Приложение для графического дизайна демонстрирует синергичное мультимодальное взаимодействие с VOIX: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.

Также были протестированы UI-агенты Perplexity Comet и BrowserGym на двух сценариях реальных пользовательских задач во всех шести приложениях VOIX. Отслеживалась задержка между пользовательским запросом и визуальным подтверждением результата.

Авторы оценили задержку между запросом и визуальным подтверждением результата для VOIX, Perplexity Comet и BrowserGym. Результат получился предельно контрастным. Протокольные инструменты VOIX выполнили за 2.32 секунды команду создать синий треугольник – Comet потребовалось 27.21 секунды, а визуальные агенты упали в ряде задач. В другом сценарии Fitness App составление недельного плана HIIT заняло 14.38 секунды с VOIX, против 229.52 секунды для Comet и 1271 для BrowserGym. VOIX экономит время, агент просто вызывает инструмент с нужными параметрами и получает немедленный ответ. VOIX агент видит пользовательские сценарии потому, что разработчики объявляют инструменты более высокого уровня, чем существующие кнопки в интерфейсе.

В какой степени VOIX дает разработчику сайта контроль, не жертвуя автономией пользователя? Сайт объявляет только те инструменты, которые считает безопасными. Пользователь выбирает, какие контексты раскрывать провайдеру LLM. Сам провайдер выбирается в расширении Chrome. Вычисления не ложатся на владельца сайта, а отдаются выбранному пользователем облачному LLM. Сами создатели сайта не получают доступ к пользовательскому диалогу. Такая прозрачность достигается на уровне протокола, а не политики.

Ограничения и что дальше

У VOIX есть цена. Требуется дисциплина, чтобы инструменты оставались синхронизированными с UI, и новые тестовые методы, чтобы выявлять рассинхронизацию между интерфейсом и инструментом. Также инструменты нужно проектировать правильно: слишком низкий уровень абстракции объявляет кучу простых кнопок, а слишком высокий ломается при сценариях чуть сбоку от ожидаемого. Потребуются руководства о том, как правильно проектировать инструменты, и, возможно, общие каталоги инструментов.

Итог

VOIX делает из сайта машинночитаемую политику пользователя: что пользователь разрешает сайтам делать от своего имени, с какими параметрами и для каких задач. Если мы хотим сделать интернет для агентов, то лучше начинать с протоколов, подобных VOIX. Они делают разрешенные действия прозрачными для обеих сторон. В этом случае “брокером доверия” становится не провайдер LLM, а конечный пользователь. Без таких протоколов ИИ-агенты будут блуждать по интернету вслепую. А с ними интернет становится средой, где ИИ-агенты работают точно, безопасно и по правилам, которые задаёт человек.

📜 Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: Как, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Огромный омар на морском дне, окружённый крабами и рыбой.
Графики сравнения производительности: агенты, кодирование, изображение, видео.
Диаграммы сравнений производительности ИИ для задач агентов, кодирования, изображений и видео.
Графики сравнения производительности ИИ-агентов в задачах по категориям: агенты, код, изображение, видео.
ideipro logotyp
Скриншот сайта Anna's Archive с базой данных книг и научных статей.
ideipro logotyp
ideipro logotyp
ideipro logotyp
Image Not Found
ideipro logotyp

Claude in PowerPoint — редактирование презентаций в реальном времени Anthropic…

Claude in PowerPoint — редактирование презентаций в реальном времени Anthropic запустили бета-версию Claude in PowerPoint — ассистент…

Фев 21, 2026
Экран выбора области для общего доступа в приложении, выделена вся область экрана.

💻 Разбираемся с любым непонятным интерфейсом. Screen Vision — это…

💻 Разбираемся с любым непонятным интерфейсом. Screen Vision — это ИИ-ассистент, который смотрит, что происходит на вашем экране и…

Фев 21, 2026
Ноутбук с интернет-технологиями, соцсети, микрофон, поиск, иконки на синем фоне.

Как собрать свой ИИ‑набор инструментов в 2026: текст, картинки, видео, голос

В 2026 году вокруг ИИ уже не «новая игрушка», а вполне рабочий инструмент, который реально экономит время и нервы. Проблема в том, что…

Фев 21, 2026
Сайт AI Top Tools — крупнейший каталог AI инструментов и новостей.

Это самая большая и подробная библиотека нейросетей — больше 10…

Это самая большая и подробная библиотека нейросетей — больше 10 000 сервисов в одном месте. Новые тулзы добавляют очень быстро, а самое…

Фев 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых