Image

Как сделать интернет удобным для ИИ-агентов

45030ac31e254bab5d4f31e14df63cfd

Веб-агенты сегодня ведут себя в чужих интерфейсах как нежданные гости: смотрят на скриншоты интерфейса и догадываются, на какие кнопки можно нажимать. Малейшее обновление интерфейса ломает всю логику, повышает цену поддержки пайплайнов, а приватность пользователей страдает. Авторы VOIX предлагают простой, но далеко идущий ответ: пусть сайты сами дают агентам разрешенные действия и описывают (в виде актуального текста) то состояние, которое важно для выбора действий. Это фундамент Agentic Web — сети, где люди и ИИ сотрудничают по прозрачным правилам.

Пример веб-приложения: список дел
Пример веб-приложения: список дел

Что такое VOIX

Фреймворк добавляет всего два тега к HTML:

  • <tool> описывает действие по имени и строго типизированным параметрам. Нажатие на инструмент агентом вызывает бизнес-логику сайта, а результат возвращается сайту с событием return.

  • <context> — компактное текстовое описание состояния, актуальное для выбора действий. Может динамически обновляться по мере работы приложения. Можно также объявить несколько контекстов.

Вместо того, чтобы гадать, какие аффордансы ему доступны, агент читает протоколы: вот, что ты можешь сделать, вот такие параметры и вот, что происходит на странице. Разработчик сайта сохраняет контроль, а агент больше не бродит вслепую по пользовательскому интерфейсу.

Встроенные элементы VOIX в веб-приложении
Встроенные элементы VOIX в веб-приложении

Как это реализовано

Роли разделены прозрачно и наглядно.

  • Сайт — источник правды о своих возможностях, объявляет инструменты и контексты. Дальше работает привычный стек инструментов, от React и Vue до Laravel.

  • Браузерный агент находит <tool>/<context> на странице, показывает их в боковой панели, отдает их текстовое описание LLM и диспатчит вызовы обратно на страницу. В опенсорсной референсной версии это расширение для Chrome.

  • Провайдер инференса, то есть любая LLM. Модель опирается на протоколы, а не на визуальный интерфейс, чтобы выбрать действие и параметры, исходя из пользовательской цели.

Важна приватность. Отправляемый пользователем для инференса диалог сайт не увидит — он уходит напрямую провайдеру LLM. Агент видит ровно те контексты и инструменты, которые сайт им объявил. Пользователь может отключать видимость контекстов в расширении Chrome.

Боковая панель расширения VOIX Reference для Chrome
Боковая панель расширения VOIX Reference для Chrome

Проверка на практике: трехдневный хакатон

16 разработчиков создали шесть приложений с протоколами инструментов и контекстов на трехдневном хакатоне. Инструменты и контексты обычно объявлялись локально в компоненте, а инструменты были видимы только там, где их имело смысл использовать. Например, пользователь мог кликнуть на объект и сказать “поверни это на 45 градусов”, и код инструмента понимал, о каком объекте идет речь.

По опросу SUS (System Usability Scale) получился средний балл 72.34 — “хорошо”. По шкале доверия TOAST(Trust in Open-source Autonomous Systems Test ,шкала оценки доверия к ИИ-системам) пользователи оценили систему как понятную и производительную. Главная сложность была не технической. Участникам было трудно решить, какие инструменты нужно объявлять: нужно выбрать правильный уровень абстракции.

Приложение для графического дизайна демонстрирует синергичное мультимодальное взаимодействие с VOIX: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.
Приложение для графического дизайна демонстрирует синергичное мультимодальное взаимодействие с VOIX: динамические элементы контекста и набор инструментов позволяют LLM вносить точечные изменения по инструкции пользователя.

Также были протестированы UI-агенты Perplexity Comet и BrowserGym на двух сценариях реальных пользовательских задач во всех шести приложениях VOIX. Отслеживалась задержка между пользовательским запросом и визуальным подтверждением результата.

Авторы оценили задержку между запросом и визуальным подтверждением результата для VOIX, Perplexity Comet и BrowserGym. Результат получился предельно контрастным. Протокольные инструменты VOIX выполнили за 2.32 секунды команду создать синий треугольник – Comet потребовалось 27.21 секунды, а визуальные агенты упали в ряде задач. В другом сценарии Fitness App составление недельного плана HIIT заняло 14.38 секунды с VOIX, против 229.52 секунды для Comet и 1271 для BrowserGym. VOIX экономит время, агент просто вызывает инструмент с нужными параметрами и получает немедленный ответ. VOIX агент видит пользовательские сценарии потому, что разработчики объявляют инструменты более высокого уровня, чем существующие кнопки в интерфейсе.

В какой степени VOIX дает разработчику сайта контроль, не жертвуя автономией пользователя? Сайт объявляет только те инструменты, которые считает безопасными. Пользователь выбирает, какие контексты раскрывать провайдеру LLM. Сам провайдер выбирается в расширении Chrome. Вычисления не ложатся на владельца сайта, а отдаются выбранному пользователем облачному LLM. Сами создатели сайта не получают доступ к пользовательскому диалогу. Такая прозрачность достигается на уровне протокола, а не политики.

Ограничения и что дальше

У VOIX есть цена. Требуется дисциплина, чтобы инструменты оставались синхронизированными с UI, и новые тестовые методы, чтобы выявлять рассинхронизацию между интерфейсом и инструментом. Также инструменты нужно проектировать правильно: слишком низкий уровень абстракции объявляет кучу простых кнопок, а слишком высокий ломается при сценариях чуть сбоку от ожидаемого. Потребуются руководства о том, как правильно проектировать инструменты, и, возможно, общие каталоги инструментов.

Итог

VOIX делает из сайта машинночитаемую политику пользователя: что пользователь разрешает сайтам делать от своего имени, с какими параметрами и для каких задач. Если мы хотим сделать интернет для агентов, то лучше начинать с протоколов, подобных VOIX. Они делают разрешенные действия прозрачными для обеих сторон. В этом случае “брокером доверия” становится не провайдер LLM, а конечный пользователь. Без таких протоколов ИИ-агенты будут блуждать по интернету вслепую. А с ними интернет становится средой, где ИИ-агенты работают точно, безопасно и по правилам, которые задаёт человек.

📜 Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: Как, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Скриншот с переводом текста про местоположение Марса в Солнечной системе.
Apple использует Gemini с Siri для ответов, похожих на ChatGPT.
Экранышот YouTube с видео о начале работы с Codex от OpenAI в интерфейсе VS Code.
Компактный фотопринтер печатает яркое фото с изображением группы людей.
Рабочий стол компьютера с множеством файлов и папок и открытой программой на переднем плане.
Женщина паркуристка прыгает между небоскрёбами в футуристическом городе на закате.
Умная кормушка с камерой в саду и птичка на краю.
Цифровой чек на покупку кексов с творожным кремом на 500 рублей с QR-кодом.
Представление CosyVoice3 — многоязычной модели синтеза речи с открытым исходным кодом.
Image Not Found
Первый домашний прибор против депрессии

Первый домашний прибор против депрессии

Управление по санитарному надзору за качеством пищевых продуктов и медикаментов в США (FDA) одобрило первый домашний прибор для стимуляции…

Янв 15, 2026
Человек в розовой рубашке стоит с крещеными руками на фоне книжных полок.

Индийская компания Emversity удвоила свою рыночную капитализацию, расширяя штат сотрудников, которых не может заменить искусственный интеллект.

Источник изображения: Emversity Поскольку искусственный интеллект автоматизирует часть рабочей силы, индийский стартап Emversity,…

Янв 15, 2026
Графическая карта с тремя вентиляторами и кабелем на столе.

Работяга из Cybenetics Labs разработал прототип кабеля 12V-2×6, защищающего от плавления

Проблема плавления видеокарт и блоков питания при использовании современного 16-контактного разъёма 12V-2×6 никуда не делась и до сих пор…

Янв 15, 2026
Обложка Forbes: инвестиции и рынок 2026, зелёные и красные стрелки, небоскрёб и стройка.

«В штуках продаем много, а в метрах — кошачьи слезы». Честный разбор рынка недвижимости 2026: почему застройщики строят «памятники себе», а аренда в Ростове летит в пропасть

Автор: Елена Трофимова Юрист по недвижимости, брокер и человек, который умеет читать балансовые отчеты застройщиков между строк.Оферта, от…

Янв 15, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых