Как инструменты искусственного интеллекта могут переосмыслить универсальный дизайн для повышения доступности.
Разработанные Google Research адаптивные интерфейсы (NAI) переосмысливают универсальный дизайн, внедряя мультимодальные инструменты искусственного интеллекта, которые адаптируются к уникальным потребностям пользователя и создаются совместно с сообществом специалистов по доступности.
В Google мы верим в создание продуктов для всех, и доступность (A11y) является ключевой частью этого. Наши команды работают с сообществами над созданием продуктов для людей с ограниченными возможностями, учитывая требования доступности с самого начала процесса разработки. Сегодня генеративный ИИ предоставляет нам возможность сделать наши инструменты еще более персонализированными и адаптивными.
Люди с инвалидностью составляют 16% населения мира. Благодаря адаптивным возможностям генеративного ИИ у нас есть возможность лучше обслуживать 1,3 миллиарда человек во всем мире, применяя подход « Ничего о нас без нас » к разработке технологий. Мы считаем, что технологии должны быть такими же уникальными, как и человек, который ими пользуется. Мы создаем мир, где каждый интерфейс подстраивается под ваши предпочтения, работая в гармонии с вами, именно такими, какие вы есть.
В этом блоге мы с гордостью представляем Natively Adaptive Interfaces (NAI) — фреймворк для создания более доступных приложений с помощью мультимодальных инструментов искусственного интеллекта. С помощью NAI дизайн пользовательского интерфейса может выйти за рамки универсального подхода и перейти к принятию решений, учитывающих контекст. NAI заменяет статическую навигацию динамическими модулями, управляемыми агентами, превращая цифровую архитектуру из пассивного инструмента в активного участника.
После тщательного прототипирования для проверки этой концепции мы вырисовываемся на пути к универсальному дизайну. Наша цель — создавать среды, которые по своей природе более доступны для людей с инвалидностью.
Инвестиции в местное сообщество: ничего о нас без нас.
Опираясь на давний принцип защиты интересов «Ничего о нас без нас», мы продолжаем интегрировать совместное проектирование под руководством сообщества в наши собственные циклы развития.
Работая с представителями сообществ людей с инвалидностью и привлекая их к участию в разработке решений с самого начала, мы можем гарантировать, что их жизненный опыт и знания будут лежать в основе создаваемых решений. При поддержке Google.org такие организации, как Национальный технический институт для глухих Рочестерского технологического института (RIT/NTID), The Arc of the United States, RNID и Team Gleason, создают адаптивные инструменты искусственного интеллекта, которые решают реальные проблемы, с которыми сталкиваются их сообщества. Эти организации осознают преобразующий потенциал инструментов ИИ, которые изначально хорошо знакомы с разнообразными способами общения человечества.
Кроме того, такой подход к совместному проектированию способствует расширению экономических возможностей и созданию рабочих мест для людей с инвалидностью, гарантируя, что люди, разрабатывающие технологии, также получают вознаграждение за их успех.
Наше направление исследований: проектирование с учетом доступности.
В ходе наших первоначальных исследований мы обнаружили, что существенным препятствием на пути к цифровому равенству является «пробел доступности», то есть задержка между выпуском новой функции и созданием для нее вспомогательного слоя. Чтобы устранить этот пробел, мы переходим от реактивных инструментов к агентным системам, которые интегрированы в интерфейс.
Направление исследований: Использование многосистемных агентов для повышения доступности.
Мультимодальные инструменты искусственного интеллекта предоставляют один из наиболее перспективных путей к созданию доступных интерфейсов. В конкретных прототипах, таких как наша работа над читаемостью веб-контента, мы протестировали модель, в которой центральный оркестратор выступает в качестве стратегического менеджера чтения.
Вместо того чтобы пользователь пробирался через сложный лабиринт меню, Orchestrator поддерживает общий контекст — понимает документ и делает его более доступным, делегируя задачи экспертным суб-агентам.
- Агент по обобщению информации: он справляется со сложными документами, разбивая информацию на части и делегируя ключевые задачи экспертным суб-агентам, делая даже самые глубокие выводы ясными и доступными.
- Агент настроек: динамически обрабатывает изменения пользовательского интерфейса, такие как масштабирование текста.
Наше исследование, протестировав этот модульный подход, показало, что пользователи могут взаимодействовать с системами более интуитивно, гарантируя, что специализированные задачи всегда будут выполняться нужным специалистом, без необходимости пользователю искать «правильную» кнопку.
На пути к мультимодальной беглости
Наши исследования также направлены на переход от простого преобразования текста в речь к мультимодальной беглости речи. Используя возможности Gemini по одновременной обработке голоса, изображения и текста, мы создали прототипы, способные преобразовывать видео в реальном времени в мгновенные интерактивные аудиоописания.
Речь идёт не просто об описании сцены; речь идёт о ситуационной осведомлённости. В ходе наших совместных проектных сессий мы наблюдали, как предоставление пользователям возможности интерактивно запрашивать информацию об окружающей среде — спрашивать о конкретных визуальных деталях по мере их появления — может снизить когнитивную нагрузку и превратить пассивный опыт в активное, диалоговое исследование.
Проверенные прототипы: «вершина» человеческого взаимодействия.
Мы подтвердили работоспособность этой архитектуры посредством тщательного прототипирования, стремясь решить сложные задачи взаимодействия с возможностями для улучшения. В эти «вершинные» моменты наше исследование показало, что мультимодальные инструменты искусственного интеллекта могут точно интерпретировать и реагировать на тонкие, специфические потребности пользователей.
- StreetReaderAI : Виртуальный гид для слепых и слабовидящих пользователей, ориентирование в физическом пространстве которых может быть серьезным препятствием для социального взаимодействия. StreetReaderAI решает эту проблему, используя две интерактивные подсистемы искусственного интеллекта: ИИ-десектора, который постоянно анализирует визуальные и географические данные, и ИИ-чата, который отвечает на конкретные вопросы. Поскольку система сохраняет контекст, пользователь может пройти мимо достопримечательности и позже спросить: «Подождите, где была эта автобусная остановка?» Агент вспоминает предыдущий визуальный кадр и дает точные указания: «Автобусная остановка находится позади вас, примерно в 12 метрах».
- Мультимодальный агентный видеоплеер (MAVP) : стандарт пассивного прослушивания. Аудиоописания (AD) предоставляют озвученную дорожку визуальных элементов, но часто они статичны. Прототип MAVP преобразует видео в интерактивный диалог, управляемый пользователем. Созданный на основе моделей Gemini, MAVP позволяет пользователям в режиме реального времени корректировать детали описания или ставить воспроизведение на паузу, чтобы задать вопросы, например: «Что надето на персонаже?». Система использует двухэтапный конвейер: сначала она генерирует «плотный индекс» визуальных описаний в автономном режиме, а затем использует генерацию с дополненной информацией (RAG) для обеспечения быстрых и высокоточных ответов во время воспроизведения.
- Грамматическая лаборатория: RIT/NTID при поддержке Google.org разрабатывает «Грамматическую лабораторию» — двуязычную (американский жестовый язык и английский) обучающую платформу на основе искусственного интеллекта, которая предоставляет репетиторство и обратную связь по письменным работам студентов на английском языке. Она предлагает обучение грамматике в нескольких доступных форматах, включая: видеообъяснения правил английской грамматики на языке жестов, субтитры на английском языке, устную речь на английском языке и письменные транскрипты. Студенты взаимодействуют с адаптивным инструментом искусственного интеллекта, который создает индивидуальный контент и настраивает процесс обучения в зависимости от их взаимодействия, обеспечивая пользователям возможность работать с контентом в формате, который наилучшим образом соответствует их языковым предпочтениям и сильным сторонам. Чтобы подчеркнуть это влияние, «Грамматическая лаборатория» недавно была представлена в фильме, созданном для нас компанией BBC StoryWorks Commercial Productions.
Эффект съезда с тротуара
Приложения, использующие фреймворк NAI, часто испытывают сильный «эффект бордюра» — явление, когда функции, разработанные для экстремальных условий, приносят пользу гораздо более широкому кругу пользователей. Подобно тому, как пандусы на тротуарах изначально были спроектированы для пользователей инвалидных колясок, но улучшили жизнь родителей с колясками и путешественников с багажом, инструменты искусственного интеллекта, созданные на основе фреймворка NAI, обеспечивают превосходный пользовательский опыт для многих. Например:
- Универсальное применение: голосовые интерфейсы, разработанные для слепых пользователей, могут быть невероятно полезны для зрячих пользователей, выполняющих несколько задач одновременно.
- Инструменты для синтеза информации: Инструменты, разработанные для поддержки людей с трудностями в обучении, могут помочь занятым специалистам быстрее обрабатывать информацию.
- Персонализированное обучение: созданные на основе искусственного интеллекта репетиторы для глухих и слабослышащих пользователей могут разрабатывать индивидуальные учебные планы для всех учеников.
Заключение: Золотой век доступа
Мы вступаем в «золотой век» возможностей искусственного интеллекта в сфере доступности. Благодаря адаптивным возможностям мультимодального ИИ у нас есть шанс создавать пользовательские интерфейсы, которые в режиме реального времени подстраиваются под огромное разнообразие человеческих способностей.
Эта эпоха — это нечто большее, чем просто использование устройств; это работа напрямую с сообществами, которые используют эти технологии. Создавая технологии вместе с людьми с инвалидностью и для них, мы можем запустить цикл взаимопомощи, который расширит горизонты возможного, создавая его сами.
Благодарности
Наша работа стала возможной благодаря щедрой поддержке Google.org , чья приверженность нашему видению оказала преобразующее воздействие. Для нас большая честь работать вместе с преданными своему делу командами из Google Research AI, Product For All (P4A), BBCWorks , Национального технического института для глухих Рочестерского технологического института (RIT/NTID) , The Arc of the United States , RNID и Team Gleason .
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.