Диаграмма системы управления XR: контекст, взаимодействие, ввод, генерация ответа.

Sensible Agent: платформа для ненавязчивого взаимодействия с проактивными агентами дополненной реальности.

24aa4490010bd45fda8bfdb62c2ba407

Sensible Agent — это исследовательский прототип, позволяющий агентам дополненной реальности заблаговременно адаптировать предлагаемые ими действия и способы взаимодействия, используя контекст в реальном времени, включая направление взгляда, доступность рук и окружающий шум.

Быстрые ссылки

Недавние инновации, такие как проект Google Astra, демонстрируют потенциал проактивных агентов, встроенных в очки дополненной реальности (AR), для предоставления интеллектуальной помощи, которая предвосхищает потребности пользователя и органично интегрируется в повседневную жизнь. Эти агенты обещают невероятное удобство: от легкой навигации по незнакомым транспортным узлам до ненавязчивого предоставления своевременных рекомендаций в людных местах. Однако современные агенты по-прежнему ограничены существенным недостатком: они преимущественно полагаются на явные словесные команды пользователей. Это требование может быть неудобным или мешать в социальных ситуациях, когнитивно утомительным в ситуациях, требующих оперативного реагирования, или просто непрактичным.

Для решения этих задач мы представляем Sensible Agent, опубликованный на UIST 2025, — фреймворк, разработанный для ненавязчивого взаимодействия с проактивными агентами дополненной реальности. Sensible Agent — это шаг вперед по сравнению с нашими предыдущими исследованиями в области взаимодействия человека и пользователя и коренным образом меняет это взаимодействие, предвидя намерения пользователя и определяя наилучший подход к оказанию помощи. Он использует многомодальное контекстное распознавание в реальном времени, тонкие жесты, ввод взгляда и минимальные визуальные подсказки для предоставления ненавязчивой, контекстно-подходящей помощи. Это важный шаг на пути к действительно интегрированным, социально ориентированным системам дополненной реальности, которые уважают контекст пользователя, минимизируют когнитивные нарушения и делают проактивную цифровую помощь практичной для повседневной жизни.

Изображение предварительного просмотра видео

Посмотрите фильм

Ссылка на видео на YouTube

Структура разумного агента

По своей сути, Sensible Agent состоит из двух взаимосвязанных модулей, предназначенных для (1) понимания того, «в чем» нужно помочь, и (2) определения того, «как» оказать помощь. Во-первых, Sensible Agent использует передовые мультимодальные датчики с помощью эгоцентрических камер и определения контекста окружающей среды, чтобы понять текущие потребности пользователя в помощи. Независимо от того, перемещаетесь ли вы по переполненному музею или спешите в продуктовом магазине, агент заблаговременно принимает решение о наиболее полезном действии, например, быстро переводит текст, предлагает популярные блюда в новом ресторане или незаметно отображает список покупок.

Не менее важно и то, что Sensible Agent интеллектуально выбирает наименее инвазивный и наиболее подходящий метод взаимодействия в зависимости от социального контекста. Например, если ваши руки заняты приготовлением пищи, агент может разрешить подтверждение кивком головы. В шумной обстановке он может незаметно отображать визуальные значки вместо того, чтобы говорить вслух. Такой адаптивный выбор способа взаимодействия гарантирует, что помощь всегда будет оказана удобно, избегая при этом существенных помех.

Разумный Агент-3

Демонстрация умного агента: агент дополненной реальности ( слева ) определяет контекст, ( посередине ) активно предлагает действия, и ( справа ) позволяет пользователям ненавязчиво реагировать жестом «палец вверх».

Создание прототипа разумного агента

Чтобы воплотить эту концепцию в жизнь, мы реализовали Sensible Agent в виде полнофункционального прототипа, работающего на Android XR и WebXR, интегрированного с мощными многомодальными моделями ИИ. Прототип включает четыре компонента: (1) контекстный анализатор, позволяющий понимать сцену, (2) генератор проактивных запросов, определяющий необходимую помощь, (3) модуль взаимодействия, определяющий наилучший способ оказания помощи, и (4) генератор ответов, предоставляющий помощь.

  • Контекстный анализатор: понимание сцены
    • Сначала система запускает контекстный анализатор для понимания текущей ситуации пользователя. Контекстный анализатор использует модель визуально-языкового анализа (VLM) для анализа входного кадра с камеры гарнитуры и YAMNet, предварительно обученный классификатор аудиособытий, для обработки уровня шума в окружающей среде. В результате этого процесса получается набор проанализированных контекстов, таких как высокоуровневая активность или местоположение пользователя.
  • Проактивный генератор запросов: принятие решения о том, «что» делать.
    • На основе проанализированного контекста генератор проактивных запросов определяет наиболее полезное действие. Он использует цепочку рассуждений (CoT), чтобы побудить модель разложить многоэтапные задачи на промежуточные этапы. Это рассуждение основано на шести примерах, полученных в ходе исследования по сбору данных (обучение с малым количеством примеров).
    • Результатом работы модели является полное предложение от агента, включающее действие (например, «Рекомендовать блюдо »), формат запроса ( множественный выбор/бинарный выбор/значок ) и способ представления ( только аудио / только визуальное отображение/оба варианта ).
  • Модуль взаимодействия: Определение способа взаимодействия
    • Этот модуль отвечает за то, как именно происходит взаимодействие, управляя как выводом, так и вводом данных.
    • Менеджер пользовательского интерфейса принимает предложение и отображает его пользователю. Он либо выводит визуальное окно на экран, либо использует технологию преобразования текста в речь (TTS) для генерации аудиоподсказки.
    • Менеджер способов ввода затем активирует наиболее подходящие для пользователя способы реагирования. В зависимости от исходного контекста (например, руки заняты, вокруг шумно) он активирует один или несколько способов ввода, включая жесты головы, жесты рук, словесные команды или взгляд.
  • Генератор ответов: Оказание помощи
    • Как только пользователь выбирает вариант (например, кивком головы), генератор ответов завершает задачу. Он использует язык программирования для формирования полезного ответа на естественном языке, который затем преобразуется в аудио с помощью синтеза речи и воспроизводится для пользователя.
Разумный Агент-1

Архитектура системы прототипа Sensible Agent. Вся система реализована на WebXR и работает на гарнитуре Android XR.

Исследование пользователей

Для оценки производительности Sensible Agent мы провели структурированное исследование с участием пользователей, сравнив его с обычным голосовым AR-помощником, созданным по образцу Project Astra. Цель была проста: определить, может ли Sensible Agent снизить трудозатраты и помехи при взаимодействии, сохраняя при этом удобство и комфорт в реалистичных повседневных сценариях.

В исследовании приняли участие 10 человек, каждый из которых выполнил 12 реалистичных сценариев с использованием гарнитуры Android XR. Для имитации реалистичного использования дополненной реальности эти сценарии были представлены либо в виде: (1) иммерсивных видеороликов 360° для сценариев, связанных с общественным транспортом, посещением ресторана и покупками продуктов, либо (2) физически воссозданных сред дополненной реальности для посещения музеев, занятий спортом и приготовления пищи. Сценарии были построены на основе следующих шести повседневных действий:

  • Чтение меню ресторана
  • Поездки на работу на общественном транспорте
  • Покупка продуктов
  • Посещение музея
  • Занятия в спортзале
  • Готовка на кухне

Участники сталкивались с каждым сценарием в двух условиях:

  • Базовый вариант (с использованием голосового помощника): Пользователи инициировали взаимодействие с помощью голосовых команд (например, «Какой есть вегетарианский вариант?» или «Расскажите мне об этом экспонате»).
  • Разумный агент: система заблаговременно предлагала адаптированные к контексту подсказки, используя минимально инвазивные методы, включая визуальные значки, ненавязчивые звуковые сигналы и взаимодействие на основе жестов (например, кивки головой, взгляд).

Участники последовательно проходили все сценарии, чередуя незнакомые контексты (сценарии первого прохождения) с более знакомыми или контекстно ограниченными вариантами (например, высокая когнитивная нагрузка, занятые руки). Для обеспечения естественного хода событий сценарии чередовались, чтобы избежать повторения похожих задач подряд.

Разумный Агент-2

Участники пользовательского исследования либо проходили набор сценариев в 360-градусных видеороликах, либо в дополненной реальности Video See-Through (VST), как в базовом варианте, так и с использованием интеллектуального агента.

Результаты

Мы сравнили Sensible Agent с базовым вариантом обычного голосового AR-помощника. Мы измерили когнитивную нагрузку с помощью индекса рабочей нагрузки NASA (NASA-TLX), общую удобность использования с помощью шкалы удобства использования системы (SUS), предпочтения пользователя по 7-балльной шкале Ликерта и общее время взаимодействия.

Наиболее значимым результатом стало снижение когнитивной нагрузки. Данные NASA-TLX показали, что по 100-балльной шкале умственной нагрузки средний балл для «Разумного агента» составил 21,1 по сравнению с 65,0 для базового уровня, при этом разница была статистически значимой ( p < 0,001). Мы наблюдали аналогичное значительное снижение воспринимаемого усилия ( p = 0,0039), что предполагает, что проактивная система успешно разгрузила умственную работу по формированию запроса.

Что касается удобства использования, обе системы показали хорошие результаты, статистически значимой разницы между их оценками SUS не наблюдалось ( p = 0,11). Однако участники выразили явное и статистически значимое предпочтение системе Sensible Agent ( p = 0,0074). По 7-балльной шкале средняя оценка предпочтения составила 6,0 для Sensible Agent по сравнению с 3,8 для базовой системы.

Что касается времени взаимодействия, регистрируемого с момента срабатывания запроса до окончательного ответа системы на ввод пользователя, базовый показатель оказался быстрее ( μ = 16,4 с) по сравнению с Sensible Agent ( μ = 28,5 с). Эта разница является ожидаемым компромиссом в двухэтапном процессе взаимодействия системы, где агент сначала предлагает действие, а затем пользователь его подтверждает. Выраженное предпочтение пользователей Sensible Agent свидетельствует о том, что этот компромисс был приемлемым, особенно в социальных контекстах, где важны осмотрительность и минимальные усилия пользователя.

Разумный Агент-4

Количественные результаты ( а ) времени взаимодействия, ( б ) оценок SUS, ( в ) предпочтений и ( г ) исходных оценок NASA TLX, измеренных в нашем пользовательском исследовании. Статистическая значимость обозначена символами ∗, ∗∗ или ∗∗∗ (обозначающими p < .05, p < .01 и p < .001 соответственно).

Ключевой вывод заключается в том, что проактивность не только снижает затрачиваемые усилия, но и меняет отношения пользователя с агентом. Участники исследования отметили, что Sensible Agent воспринимается не столько как инструмент, сколько как партнер по сотрудничеству. Его тонкие, невербальные сигналы отражали социальные сигналы, способствуя установлению взаимопонимания и делая взаимодействие более естественным, что говорит о том, что способ взаимодействия так же важен, как и его содержание , для того, чтобы агент воспринимался как вовлеченный помощник.

Этот сдвиг в восприятии был особенно заметен в условиях высокого давления или активного социального взаимодействия. Наши результаты подтверждают, что одной лишь релевантности недостаточно; эффективные агенты должны согласовывать свой способ коммуникации с доступностью пользователя, состоянием его внимания и социальным контекстом.

Заключение и дальнейшие направления

В данном исследовании мы продемонстрировали, что проактивная помощь с использованием дополненной реальности может быть одновременно интеллектуальной и ненавязчивой за счет совместного анализа того, что предложить и как это сделать. Интегрируя мультимодальное зондирование и адаптацию в реальном времени как в процесс принятия решений, так и в проектирование интерфейса, наша система решает давние проблемы взаимодействия человека и агента.

В перспективе это исследование можно расширить до реальных приложений, интегрировав долгосрочную историю для поддержки персонализации во времени, масштабируя систему для работы на разных устройствах и в разных средах, а также изучая приложения в умных домах и физической робототехнике, обеспечивая при этом безопасность пользователей и пользовательских данных с помощью анализа данных на устройстве. По мере того, как дополненная реальность все больше внедряется в повседневную жизнь, такие системы, как Sensible Agent, закладывают основу для цифровых агентов, которые эффективно и внимательно поддерживают пользователей.

Благодарности

Данная работа является результатом совместной работы нескольких команд Google. В ее создании приняли участие следующие исследователи: Геонсун Ли, Мин Ся, Нельс Нуман, Сюнь Цянь, Дэвид Ли, Яньхэ Чен, Ачин Кулшрестха, Ишан Чаттерджи, Иньда Чжан, Динеш Маноча, Дэвид Ким и Руофэй Ду. Мы хотели бы поблагодарить Чжунъи Чжоу, Викаса Бахирвани, Джессику Бо, Чжэн Сюй и Ренхао Лю за их отзывы и обсуждения нашего предложения на ранней стадии. Мы благодарим Алекса Олвала, Адарша Коудла и Гуру Сомаддера за стратегическое руководство и вдумчивые рецензии.

    Источник: research.google

    ✅ Найденные теги: Sensible, Sensible Agent, взаимодействие, Дополненная реальность, новости, Платформа, Проактивные Агенты

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Схема структуры звезды: давление и гравитация, внутреннее строение.
    Дети изучают глобус в классе, школьный урок географии.
    Космическая перчатка держит загадочную жидкость на фоне космоса, загадки и вопросительные знаки.
    Старт ракеты в небо с пусковой площадки, клубы дыма и яркое пламя двигателей.
    Материнская плата MSI MEG Z790 ACE с поддержкой игрового процессора и дизайном с драконами.
    Запуск космической ракеты в небо, огненные струи.
    Запуск ракеты с усилителями в космос на фоне голубого неба.
    Шмель пьет каплю воды с поверхности.
    Шмель пьет каплю воды с гладкой поверхности крупным планом.
    Image Not Found
    Схема структуры звезды: давление и гравитация, внутреннее строение.

    Всплески гравитационных волн подтвердили разрыв в распределении масс черных дыр. Раньше подтвердить его наличие не удавалось

    Раньше подтвердить его наличие не удавалось Астрономы нашли достаточно надежное доказательство существования разрыва в распределении масс черных дыр, который возникает из-за взрывов их звезд-прародителей как парно-нестабильных сверхновых. В пользу наличия разрыва говорят свойства распределения масс вторичных черных дыр…

    Апр 8, 2026
    Дети изучают глобус в классе, школьный урок географии.

    Почему отказ от развития мышления народа — это стратегическое поражение

    На первый взгляд, элитам выгодно, чтобы народ не мыслил слишком глубоко. Управлять людьми с клиповым сознанием, живущими эмоциями и короткими импульсами, гораздо проще: дёрнул за ниточку страха — получил нужную реакцию, пообещал лёгких денег — купил лояльность.…

    Апр 8, 2026
    Материнская плата MSI MEG Z790 ACE с поддержкой игрового процессора и дизайном с драконами.

    MSI, как и ASUS, не будет выпускать новые платы для процессоров Intel Core Ultra 200S Plus

    Не успели мы изучить слова энтузиаста GGF Events о том, что ASUS якобы не будет выпускать новых материнских плат специально для обновлённых процессоров Intel Arrow Lake Refresh, как в дело вступает ресурс Wccftech, утверждающий, что по той…

    Апр 8, 2026
    Портрет женщины с длинными волосами в синих тонах на светлом фоне.

    Непрерывный мониторинг уровня глюкозы сводил меня с ума.

    Компания MAHA одержима этими носимыми устройствами — и делает это по совершенно неправильным причинам. Виктория Сонг, старший рецензент в области носимых технологий. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту…

    Апр 8, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых