Генеративный пользовательский интерфейс: богатый, настраиваемый, визуально интерактивный интерфейс для любого запроса.

Мы представляем новую реализацию генеративного пользовательского интерфейса, позволяющую моделям ИИ создавать захватывающие впечатления, интерактивные инструменты и симуляции, генерируемые полностью в режиме реального времени по любому запросу. Эта функция внедряется в приложение Gemini и Google Search, начиная с режима ИИ.
Быстрые ссылки
- Бумага
- Страница проекта
- Делиться
Генеративный пользовательский интерфейс — это мощная возможность, в которой модель искусственного интеллекта генерирует не только контент, но и весь пользовательский опыт. Сегодня мы представляем новую реализацию генеративного пользовательского интерфейса, которая динамически создает захватывающие визуальные впечатления и интерактивные интерфейсы — такие как веб-страницы, игры, инструменты и приложения — которые автоматически проектируются и полностью настраиваются в ответ на любой вопрос, инструкцию или запрос. Эти запросы могут быть как простыми, состоящими из одного слова, так и достаточно длинными, чтобы содержать подробные инструкции. Эти новые типы интерфейсов существенно отличаются от статических, предопределенных интерфейсов, в которых модели ИИ обычно отображают контент.
В нашей новой статье «Генеративный пользовательский интерфейс: LLM — эффективные генераторы пользовательского интерфейса» мы описываем основные принципы, которые позволили нам реализовать генеративный пользовательский интерфейс, и демонстрируем эффективную жизнеспособность этой новой парадигмы. Наши оценки показывают, что, если не учитывать скорость генерации, интерфейсы, созданные с помощью наших генеративных пользовательских интерфейсов, значительно превосходят по мнению экспертов-людей стандартные результаты работы LLM. Эта работа представляет собой первый шаг к полностью генерируемому искусственным интеллектом пользовательскому опыту, где пользователи автоматически получают динамические интерфейсы, адаптированные к их потребностям, вместо того, чтобы выбирать из существующего каталога приложений.
Наши исследования в области генеративного пользовательского интерфейса (также называемого генеративными интерфейсами) сегодня воплощаются в жизнь в приложении Gemini благодаря эксперименту под названием «динамический просмотр», а также в режиме искусственного интеллекта в поиске Google.
Генеративный пользовательский интерфейс полезен для широкого круга приложений. Для любого вопроса, потребности или запроса пользователя, будь то простое слово или сложная инструкция, модель создает полностью настраиваемый интерфейс. Слева: Получение персонализированных советов по моде . Посередине: Изучение фракталов . Справа: Преподавание математики .
Дополнительные примеры можно найти на странице проекта .
Внедрение генеративного пользовательского интерфейса в продукты Google.
Возможности генеративного пользовательского интерфейса будут внедрены в приложении Gemini в виде двух экспериментов: динамического просмотра и визуальной компоновки. При использовании динамического просмотра, основанного на нашей реализации генеративного пользовательского интерфейса, Gemini разрабатывает и кодирует полностью персонализированный интерактивный ответ на каждый запрос, используя возможности агентного программирования Gemini. При этом пользовательский опыт настраивается с учетом того, что объяснение микробиома пятилетнему ребенку требует иного контента и иного набора функций, чем объяснение взрослому, точно так же, как создание галереи постов в социальных сетях для бизнеса требует совершенно иного интерфейса, чем составление плана предстоящей поездки.
Динамический режим просмотра можно использовать в самых разных сценариях, от изучения теории вероятности до решения практических задач, таких как планирование мероприятий и получение советов по моде. Интерфейсы позволяют пользователям учиться, играть или исследовать в интерактивном режиме. Динамический режим просмотра, наряду с визуальным оформлением, внедряется сегодня. Чтобы помочь нам лучше понять эти эксперименты, пользователи могут сначала увидеть только один из них.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Пример генеративного пользовательского интерфейса в динамическом представлении, созданного на основе задания: «Создайте галерею Ван Гога с учетом контекста жизни каждого произведения».
Генеративные пользовательские интерфейсы также интегрированы в Google Поиск, начиная с режима ИИ, открывая доступ к динамическим визуальным возможностям с интерактивными инструментами и симуляциями, которые генерируются специально для вопроса пользователя. Теперь, благодаря беспрецедентному многомодальному пониманию Gemini 3 и мощным возможностям агентного программирования, Gemini 3 в режиме ИИ может интерпретировать намерение, стоящее за любым запросом, для мгновенного создания индивидуальных генеративных пользовательских интерфейсов. Генерируя интерактивные инструменты и симуляции на лету, он создает динамическую среду, оптимизированную для глубокого понимания и выполнения задач. Возможности генеративного пользовательского интерфейса в режиме ИИ доступны подписчикам Google AI Pro и Ultra в США начиная с сегодняшнего дня. Выберите «Мышление» в выпадающем меню модели в режиме ИИ, чтобы попробовать.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Пример работы режима искусственного интеллекта в поиске Google с запросом: «Покажите, как работает РНК-полимераза. Каковы этапы транскрипции и чем они отличаются в прокариотических и эукариотических клетках».
Как работает реализация генеративного пользовательского интерфейса
В нашей реализации генеративного пользовательского интерфейса, описанной в статье, используется модель Google Gemini 3 Pro с тремя важными дополнениями:
- Доступ к инструментам : Сервер предоставляет доступ к нескольким ключевым инструментам, таким как генерация изображений и веб-поиск. Это позволяет сделать результаты доступными для модели для повышения качества или отправить их непосредственно в браузер пользователя для повышения эффективности.
- Тщательно разработанные инструкции по использованию системы : Система работает в соответствии с подробными инструкциями, которые включают в себя цель, планирование, примеры и технические характеристики, в том числе форматирование, руководства по инструментам и советы по предотвращению распространенных ошибок.
- Постобработка : выходные данные модели проходят через набор постпроцессоров для устранения потенциальных распространенных проблем.
Общий обзор системы генеративного пользовательского интерфейса.
Для некоторых продуктов может быть предпочтительнее видеть результаты в определенном стиле. Наша реализация может быть настроена для таких продуктов таким образом, чтобы все результаты, включая сгенерированные ресурсы, создавались в едином стиле для всех пользователей. Без специальных указаний по стилю генеративный интерфейс выберет стиль автоматически, или пользователь сможет повлиять на стиль в своем запросе, как в случае динамического представления в приложении Gemini.
Скриншоты результатов генеративного проектирования пользовательского интерфейса с единообразным стилем «Wizard Green».
Генеративные пользовательские интерфейсы имеют явное преимущество перед стандартными форматами.
Для обеспечения единообразной оценки и сравнения реализаций генеративных пользовательских интерфейсов мы создали PAGEN — набор данных веб-сайтов, созданных экспертами, и вскоре предоставим его исследовательскому сообществу.
Для оценки пользовательских предпочтений мы сравнили наш новый генеративный пользовательский интерфейс с различными форматами: веб-сайтом, разработанным экспертами для конкретной задачи, лучшим результатом поиска Google по этому запросу и базовыми результатами LLM в виде необработанного текста или стандартных форматов Markdown.
Сайты, разработанные экспертами, имели самые высокие показатели предпочтения. За ними следовали результаты нашей реализации генеративного пользовательского интерфейса, значительно отличающиеся от всех других методов вывода. В этой оценке не учитывалась скорость генерации. Мы также показываем, что производительность генеративного пользовательского интерфейса сильно зависит от производительности базовой модели, и что наши новейшие модели показывают значительно лучшие результаты. Подробнее см. в статье.
Впереди открываются новые возможности
Мы все еще находимся на начальном этапе развития генеративных пользовательских интерфейсов, и остаются важные возможности для их улучшения. Например, наша текущая реализация иногда может занимать минуту или больше для генерации результатов, и в выходных данных иногда встречаются неточности; это области, требующие постоянного исследования. Генеративный пользовательский интерфейс — это пример волшебного цикла исследований, где научные прорывы приводят к инновациям в продуктах, которые открывают новые возможности для удовлетворения потребностей пользователей и, в свою очередь, стимулируют дальнейшие исследования. Мы видим потенциал в расширении возможностей генеративного пользовательского интерфейса для доступа к более широкому набору сервисов, адаптации к дополнительному контексту и обратной связи от пользователей, а также в предоставлении все более полезных визуальных и интерактивных интерфейсов. Мы с нетерпением ждем дальнейших возможностей, которые откроются перед генеративным пользовательским интерфейсом.
Благодарности
Мы благодарим наших соавторов Матана Калмана, Дэнни Люмена, Эяля Сегалиса, Эяля Молада, Шломи Пастернака, Валери Нюгард, Шринивасана (Чину) Венкатачари и Джеймса Маника. Работа была выполнена в сотрудничестве команд Google Research, Google Search и Gemini. Многие другие внесли свой вклад и поддержали работу, в том числе Йоав Цур, Зак Цай, Хен Фитусси, Амир Зайт, Орен Литвин, Кристофер Хэйр, Харш Харбанда, Лиат Бен-Рафаэль, Ронит Левави Морад, Кристен Чуи, Уильям Ли, Дженнифер Шен, Крис Струхар, Иван Келбер, Хлоя Цзя, Райан Аллен, Марьям Сангладжи, Таня Синха, Хема Бударажу, Робби Стейн, Джош Вудворд и Джефф Дин.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.