Схема процесса создания описаний на основе AI и динамического ввода данных геоконтекста.

StreetReaderAI: На пути к обеспечению доступности Street View с помощью контекстно-ориентированного мультимодального ИИ.

воспроизведение зацикленного видео пауза зацикленного видео включить звук видео отключить звук

Представляем StreetReaderAI, новый прототип системы просмотра улиц, доступный для всех, использующий контекстно-ориентированный искусственный интеллект в режиме реального времени и удобные элементы управления навигацией.

Быстрые ссылки

Интерактивные инструменты для просмотра городских пейзажей, доступные сегодня во всех основных картографических сервисах, произвели революцию в том, как люди виртуально перемещаются и исследуют мир — от предварительного просмотра маршрутов и осмотра мест назначения до удаленного посещения туристических достопримечательностей мирового класса. Но до сих пор программы чтения с экрана не могли интерпретировать изображения в режиме просмотра улиц, а альтернативный текст был недоступен. Теперь у нас есть возможность переосмыслить этот захватывающий опыт просмотра городских пейзажей, сделав его доступным для всех с помощью мультимодального искусственного интеллекта и распознавания изображений. В конечном итоге это может позволить таким сервисам, как Google Street View, которые содержат более 220 миллиардов изображений из более чем 110 стран и территорий, стать более доступными для людей с нарушениями зрения и слабовидящих, предлагая захватывающий визуальный опыт и открывая новые возможности для исследования.

В докладе «StreetReaderAI: Обеспечение доступности Street View с помощью контекстно-ориентированного мультимодального ИИ», представленном на конференции UIST'25, мы представляем StreetReaderAI — прототип доступного приложения для просмотра улиц, использующего контекстно-ориентированный ИИ в реальном времени и доступные элементы управления навигацией. StreetReaderAI был разработан итеративно командой исследователей доступности, как слепых, так и зрячих, с учетом предыдущих работ в области доступных игр от первого лица и навигационных инструментов, таких как Shades of Doom, BlindSquare и SoundScape. Ключевые возможности включают:

  • Сгенерированные в режиме реального времени с помощью ИИ описания близлежащих дорог, перекрестков и мест.
  • Динамичный диалог с мультимодальным ИИ-агентом о сценах и местной географии.
  • Удобное панорамирование и перемещение между панорамными изображениями с помощью голосовых команд или сочетаний клавиш.

воспроизведение зацикленного видео пауза зацикленного видео включить звук видео отключить звук

StreetReaderAI предоставляет контекстно-зависимое описание сцены на карте улицы, вводя в Gemini географическую информацию и текущее поле зрения пользователя. Для полного аудио-видео сопровождения, включая звук, пожалуйста, посмотрите это видео на YouTube .

воспроизведение зацикленного видео пауза зацикленного видео включить звук видео отключить звук

StreetReaderAI использует Gemini Live для обеспечения интерактивного общения в режиме реального времени об обстановке и местных географических особенностях. Для полного аудио-видео звучания, включая звук, пожалуйста, посмотрите это видео на YouTube .

Навигация в StreetReaderAI

StreetReaderAI предлагает захватывающий опыт исследования от первого лица, во многом похожий на видеоигру, где основным интерфейсом является звук.

StreetReaderAI обеспечивает удобную навигацию как с помощью клавиатуры, так и с помощью голосового управления. Пользователи могут исследовать окружающую обстановку, используя клавиши со стрелками влево и вправо для изменения ракурса. При перемещении StreetReaderAI предоставляет звуковую обратную связь, озвучивая текущее направление в виде основных или промежуточных сторон света ( например, « Сейчас смотрю на север » или « Северо-восток »). Он также сообщает, может ли пользователь двигаться вперед и находится ли он в данный момент лицом к ближайшей достопримечательности или месту.

Для перемещения пользователь может делать «виртуальные шаги», используя стрелку вверх, или двигаться назад, используя стрелку вниз. По мере перемещения пользователя по виртуальному городскому пейзажу StreetReaderAI описывает пройденное расстояние и ключевую географическую информацию, например, о близлежащих местах. Пользователи также могут использовать функции «прыжок» или «телепортация» для быстрого перемещения в новые места.

Как StreetReaderAI служит виртуальным гидом

В основе StreetReaderAI лежат две базовые подсистемы искусственного интеллекта, поддерживаемые Gemini: AI Describer и AI Chat. Обе подсистемы принимают на вход статическую подсказку и необязательный профиль пользователя, а также динамическую информацию о текущем местоположении пользователя, такую как ближайшие места, информация о дорогах и текущее изображение в поле зрения (т.е. то, что отображается в режиме Street View).

ИИ-десеквенсор

AI Describer — это инструмент для описания сцен с учетом контекста, который объединяет динамическую географическую информацию о виртуальном местоположении пользователя с анализом текущего изображения Street View для генерации аудиоописания в реальном времени.

Приложение имеет два режима: «стандартный » режим, ориентированный на навигацию и безопасность для слепых пешеходов, и «режим гида » , предоставляющий дополнительную туристическую информацию (например, исторический и архитектурный контекст). Мы также используем Gemini для прогнозирования вероятных последующих вопросов, специфичных для текущей ситуации и местной географии, которые могут представлять интерес для слепых или слабовидящих путешественников.

StreetReaderAI-3

Схема, демонстрирующая, как AI Describer объединяет мультимодальные данные для поддержки контекстно-зависимого описания сцен.

Чат с использованием ИИ

AI Chat основан на AI Describer, но позволяет пользователям задавать вопросы о текущем виде, прошлых видах и географическом положении поблизости. Агент чата использует API Google Multimodal Live, который поддерживает взаимодействие в реальном времени, вызов функций и временно сохраняет в памяти все взаимодействия в рамках одной сессии. Мы отслеживаем и отправляем каждое движение или перемещение вместе с текущим видом пользователя и географическим контекстом (например, ближайшие места, текущее направление).

Мощность AI Chat заключается в его способности хранить временную «память» о сеансе пользователя — контекстное окно ограничено максимум 1 048 576 входными токенами, что примерно эквивалентно более чем 4000 входным изображениям. Поскольку AI Chat получает информацию о местоположении и положении пользователя на каждом виртуальном шаге, он собирает информацию о местоположении и контексте пользователя. Пользователь может виртуально пройти мимо автобусной остановки, повернуть за угол и спросить: « Подождите, где была эта автобусная остановка? » Агент может вспомнить предыдущий контекст, проанализировать текущее географическое положение и ответить: « Автобусная остановка находится позади вас, примерно в 12 метрах».

Тестирование StreetReaderAI с участием слепых пользователей

Для оценки StreetReaderAI мы провели очное лабораторное исследование с участием одиннадцати слепых пользователей программ чтения с экрана. В ходе занятий участники ознакомились с StreetReaderAI и использовали его для изучения различных мест и оценки потенциальных пешеходных маршрутов к пунктам назначения.

воспроизведение зацикленного видео пауза зацикленного видео включить звук видео отключить звук

Слепой участник использует StreetReaderAI для изучения возможных маршрутов до автобусной остановки и выяснения особенностей остановки, таких как наличие скамеек и навеса. Для полного аудио-видео просмотра, включая звук, пожалуйста, обратитесь к этому видео на YouTube .

В целом, участники положительно отреагировали на StreetReaderAI, оценив общую полезность на 6,4 балла (медиана = 7; стандартное отклонение = 0,9) по шкале Ликерта от 1 до 7 (где 1 означало «совсем бесполезно», а 7 — «очень полезно»), подчеркнув взаимодействие виртуальной навигации и ИИ, удобство интерактивного интерфейса чата с ИИ и ценность предоставляемой информации. Качественные отзывы участников неизменно отмечали значительное улучшение доступности навигации в StreetReaderAI, указывая на то, что существующие инструменты просмотра улиц не обладают таким уровнем доступности. Функция интерактивного чата с ИИ также была описана как делающая общение об улицах и местах увлекательным и полезным.

В ходе исследования участники посетили более 350 панорам и отправили более 1000 запросов ИИ. Интересно, что AI Chat использовался в шесть раз чаще, чем AI Describer, что указывает на явное предпочтение персонализированных, диалоговых запросов. Хотя участники оценили StreetReaderAI и умело сочетали навигацию по виртуальному миру с взаимодействием с ИИ, есть куда стремиться: участники иногда испытывали трудности с правильной ориентацией, определением достоверности ответов ИИ и определением пределов знаний ИИ.

воспроизведение зацикленного видео пауза зацикленного видео включить звук видео отключить звук

В одном из заданий исследования участникам было дано указание: «Узнайте о незнакомой детской площадке, чтобы спланировать поездку со своими двумя маленькими племянницами». Этот видеоролик иллюстрирует разнообразие задаваемых вопросов и скорость реакции StreetReaderAI. Для полного аудио-видео просмотра, включая звук, пожалуйста, обратитесь к этому видео на YouTube .

Результаты

Наше исследование, являющееся первым изучением доступной системы просмотра улиц, также впервые анализирует типы вопросов, которые задают слепые люди об изображениях городских пейзажей. Мы проанализировали все 917 взаимодействий в чате с использованием ИИ и аннотировали каждое из них, добавив до трех тегов из сформированного списка из 23 категорий типов вопросов. Четыре наиболее распространенных типа вопросов включали:

  • Пространственная ориентация : 27,0% участников больше всего интересовались расположением и расстоянием до объектов, например: « На каком расстоянии находится автобусная остановка от того места, где я стою? » и «С какой стороны находятся мусорные баки рядом со скамейкой?»
  • Наличие объектов : 26,5% участников задавали вопросы о наличии ключевых элементов, таких как тротуары, препятствия и двери; «Есть ли здесь пешеходный переход?»
  • Общее описание : 18,4% участников начинали чат с ИИ, запрашивая краткое описание текущей ситуации, часто спрашивая: « Что у меня перед глазами? »
  • Местоположение объекта/места : 14,9% участников спрашивали, где находятся те или иные предметы, например: « Где находится ближайший перекресток? » или « Можете помочь мне найти дверь? »

точность StreetReaderAI

Поскольку StreetReaderAI в значительной степени полагается на ИИ, критически важной задачей является точность ответов. Из 816 вопросов, заданных участниками в чате с ИИ:

  • На 703 вопроса (86,3%) был дан правильный ответ.
  • 32 (3,9%) были неверны (3,9%).
  • Остальные ответы были либо частично правильными (26; 3,2%), либо ИИ отказался отвечать (54; 6,6%).

Из 32 неверных ответов:

  • 20 (62,5%) случаев были ложноотрицательными, например, утверждение о том, что велопарковки не существует, хотя она была.
  • 12 (37,5%) случаев были связаны с неправильной идентификацией ( например, желтый лежачий полицейский был принят за пешеходный переход) или различными ошибками, вызванными тем, что чат с искусственным интеллектом еще не распознал цель в режиме просмотра улиц.

Необходимо провести дополнительные исследования, чтобы изучить, как StreetReaderAI работает в других условиях и за пределами лабораторных условий.

Что дальше?

StreetReaderAI — это многообещающий первый шаг к тому, чтобы сделать инструменты для анализа городских пейзажей доступными для всех. Наше исследование показывает , какую информацию слепые пользователи хотят получать и о чем спрашивают при работе с изображениями городских пейзажей, а также потенциал мультимодального ИИ для ответа на их вопросы.

Существует несколько других возможностей для расширения этой работы:

  • На пути к геовизуальным агентам: Мы представляем себе более автономного чат-агента на основе ИИ, способного самостоятельно исследовать местность. Например, пользователь мог бы спросить: « Какая следующая автобусная остановка на этой улице? », и агент мог бы автоматически перемещаться по сети Street View, находить остановку, анализировать ее особенности (скамейки, навесы) и сообщать о результатах.
  • Поддержка планирования маршрута: Аналогично, StreetReaderAI пока не поддерживает полную маршрутизацию от пункта отправления до пункта назначения. Представьте, что вы спрашиваете: « Каково расстояние от ближайшей станции метро до библиотеки? » Будущий агент ИИ мог бы «предварительно пройти» маршрут, анализируя каждое изображение Street View, чтобы создать удобное для слепых краткое описание, отмечая потенциальные препятствия и определяя точное местоположение двери библиотеки.
  • Более насыщенный аудиоинтерфейс: основным выходным сигналом StreetReaderAI является речь. Мы также изучаем возможность получения более качественной невербальной обратной связи, включая пространственное звучание и полностью иммерсивные 3D-аудиоландшафты, синтезированные из самих изображений.

Хотя StreetReaderAI представляет собой исследовательский прототип, демонстрирующий потенциал обеспечения доступности иммерсивных городских пейзажей.

Благодарности

Данное исследование было проведено Джоном Э. Фрёлихом, Александром Дж. Фианнакой, Нимером Джабером, Виктором Цараном, Шоном К. Кейном и Филипом Нельсоном. Мы благодарим проект Astra и команды Google Geo за их отзывы, а также наших участников. Иконки диаграмм взяты из Noun Project, в том числе: « иконка подсказки » от Фирдауса Фаиза, « функции команд » от Kawalan Icon, « динамический геоконтекст » от Дидика Дарманто и « иконка MLLM » от Funtasticon.

    Источник: research.google

    ✅ Найденные теги: Street View, StreetReaderAI, Доступность, Контекстно-Ориентированный, Мультимодальный ИИ, новости

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    АМОК: Ключевые океанические течения замедляются в районах Атлантического океана.
    Грозовое красное облако над городом на закате, виды со зданий.
    Грозовая туча над городом, красное небо, закатное освещение.
    Послеродовую депрессию можно быстро вылечить
    Силуэты матери и ребёнка на фоне жалюзи.
    Происходит ли генетическая деградация человечества, приводящая к снижению интеллекта?
    ideipro logotyp
    ideipro logotyp
    ideipro logotyp
    Image Not Found
    Происходит ли генетическая деградация человечества, приводящая к снижению интеллекта?

    Происходит ли генетическая деградация человечества, приводящая к снижению интеллекта?

    Неужели мы эволюционируем в сторону большей глупости? У людей относительно высокая частота генетических мутаций, которая, как считалось, снижает нашу физическую и умственную работоспособность, — но обозреватель Майкл Ле Пейдж обнаружил, что эти мутации не представляют собой такой…

    Апр 13, 2026
    Ученые, возможно, нашли способ сохранить кости крепкими на всю жизнь.

    Ученые, возможно, нашли способ сохранить кости крепкими на всю жизнь.

    Ученые обнаружили скрытый «переключатель для костей», способный восстанавливать и защищать кости. Фото: Shutterstock Растет спрос на методы…

    Апр 13, 2026
    Ученые, возможно, нашли способ сохранить кости крепкими на всю жизнь.

    Ученые, возможно, нашли способ сохранить кости крепкими на всю жизнь.

    Ученые обнаружили скрытый «переключатель для костей», способный восстанавливать и защищать кости. Фото: Shutterstock Растет спрос на методы…

    Апр 13, 2026
    «Действительно ли это сработает?»: Почему крупные фармацевтические компании совершают скачок в квантовую реальность

    «Действительно ли это сработает?»: Почему крупные фармацевтические компании совершают скачок в квантовую реальность

    Искусственный интеллект долгое время рассматривался как способ значительно ускорить разработку лекарств. Но в передовых лабораториях по…

    Апр 12, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых