
Мы представляем PASTA, агента обучения с подкреплением, который улучшает вывод текста в виде изображения на протяжении нескольких взаимодействий с пользователем, изучая его уникальные предпочтения. Этот процесс стал возможен благодаря новой технике моделирования поведения пользователя.
Быстрые ссылки
- Бумага
- Базовый набор данных
- Делиться
У вас в голове сложился идеальный образ. Вы вводите запрос, нажимаете «Сгенерировать», и результат близок к тому, что вы себе представляли, но не совсем то, что нужно. Вы пытаетесь уточнить запрос, добавить больше деталей, но никак не можете преодолеть разрыв между вашей идеей и конечным изображением.
Это распространенная ситуация. Хотя модели преобразования текста в изображение (T2I) невероятно эффективны, им часто трудно уловить нюансы и специфику уникального творческого замысла отдельного человека, получив всего лишь один запрос. А что если бы мы могли превратить генерацию изображений в совместный диалог?
В этом посте мы описываем наше исследование «Агент преобразования текста в изображение с адаптивными и последовательными предпочтениями» (PASTA), агент обучения с подкреплением (RL), который взаимодействует с пользователями для постепенного улучшения результатов преобразования текста в изображение. Такой подход устраняет необходимость для пользователей полагаться на метод проб и ошибок для получения желаемого изображения. На основе оценок пользователей мы создали новый набор данных последовательных предпочтений, который затем использовали для сравнения PASTA с базовой современной моделью. Результаты показали, что PASTA, обученная на нашей смеси реальных и смоделированных данных, стабильно создавала изображения, которые пользователи оценивали как более удовлетворительные. Мы также выпустили наш базовый набор данных, содержащий более 7000 взаимодействий пользователей с PASTA.
Как работает паста
Для эффективного обучения ИИ-агента адаптации к индивидуальным предпочтениям пользователя необходим большой и разнообразный набор данных о взаимодействии. Однако сбор этих данных от реальных пользователей представляет собой сложную задачу из-за ряда факторов, включая конфиденциальность пользователей. Для решения этой проблемы мы обучили PASTA, используя двухэтапную стратегию, которая сочетает в себе реальную обратную связь от людей с крупномасштабным моделированием взаимодействия пользователей.
Сначала мы собрали высококачественный базовый набор данных, содержащий более 7000 последовательных взаимодействий оценщиков. Эти взаимодействия включали в себя расширения подсказок, сгенерированные большой мультимодальной моделью Gemini Flash, и соответствующие изображения, сгенерированные моделью Stable Diffusion XL (SDXL) T2I. Затем этот первоначальный набор аутентичных данных о предпочтениях был использован для обучения симулятора пользователя, предназначенного для генерации дополнительных данных, воспроизводящих реальные человеческие предпочтения и выбор.
В основе нашего метода лежит модель пользователя, состоящая из двух ключевых компонентов: 1) модели полезности, которая предсказывает, насколько пользователю понравится любой набор изображений, и 2) модели выбора, которая предсказывает, какой набор изображений он выберет при предъявлении нескольких наборов. Мы построили модель пользователя, используя предварительно обученные кодировщики CLIP и добавив компоненты, специфичные для пользователя. Мы обучили модель с помощью алгоритма ожидания-максимизации, который позволяет нам одновременно изучать специфику пользовательских предпочтений и выявлять скрытые «типы пользователей», то есть группы пользователей со схожими вкусами (например, склонность предпочитать изображения с животными, пейзажи или абстрактное искусство).
Обученный симулятор пользователя может предоставлять обратную связь и выражать предпочтения в отношении сгенерированных изображений, а также выбирать изображения из предложенных наборов. Это позволяет нам генерировать более 30 000 смоделированных траекторий взаимодействия. Наш подход не просто создает больше данных; он предоставляет нам контролируемую среду для изучения широкого спектра поведения пользователей, чтобы мы могли обучить агента PASTA эффективно взаимодействовать с пользователями.

Наш симулятор пользователей учится определять различные типы пользователей на основе данных о предпочтениях. В каждой строке отображаются изображения с наивысшим рейтингом для формирующегося профиля пользователя, что позволяет выявить явные предпочтения в таких категориях, как «Животные» или «Еда».
Благодаря этой надежной, основанной на данных базе, агент PASTA обучен эффективно взаимодействовать с произвольными пользователями, генерируя изображения, соответствующие их предпочтениям. Сам агент представляет собой модель обучения с подкреплением, основанную на ценностях, которая учится выбирать наилучший «набор» расширений подсказок (т.е. уточнений текущей подсказки, используемых для генерации последующих изображений) для показа пользователю на каждом этапе. Его цель — максимизировать совокупную удовлетворенность пользователя на протяжении всего взаимодействия.
После обучения и развертывания PASTA пользователь инициирует взаимодействие с помощью первоначального запроса. PASTA сначала использует генератор кандидатов (большую мультимодальную модель) для создания разнообразного набора потенциальных вариантов расширения запроса. Затем селектор кандидатов (наш обученный агент RL) выбирает оптимальный набор из четырех таких вариантов, которые используются для генерации соответствующих изображений для показа пользователю. Пользователь выбирает изображение, наиболее близкое к его представлению, что дает обратную связь, которая направляет следующий набор предложений PASTA. Этот совместный обмен позволяет модели изучать предпочтения пользователя в режиме реального времени, направляя творческий процесс к его идеальной цели на каждом шаге.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Начиная с простого запроса «Белый кот», PASTA вовлекает пользователя в визуально обоснованный диалог. Выбор пользователя (выделенный синим цветом) помогает агенту быстро понять его предпочтения в отношении более фантастического и красочного стиля.
Испытание пасты на прочность
Для оценки нашего подхода мы обучили PASTA как агента обучения с подкреплением, основанного на ценностях, используя неявное Q-обучение (IQL). В частности, мы хотели посмотреть, как использование различных обучающих данных влияет на производительность. Мы создали три версии агента: 1) обученный только на реальных данных добровольцев-оценщиков, 2) обученный только на смоделированных данных и 3) обученный на комбинации реальных и смоделированных наборов данных.
Затем мы провели серию оценок с участием людей, сравнивая этих агентов с базовой моделью (т. е. базовыми моделями Gemini Flash и SDXL без дополнительного обучения) по четырем показателям: точность на наборе данных Pick-a-Pic, ранговая корреляция Спирмена, точность модели выбора и точность при перекрёстном повороте. Точность Pick-a-Pic и ранговая корреляция Спирмена оценивают способность модели прогнозировать предпочтения и рейтинги пользователей на существующих крупномасштабных наборах данных с одним поворотом. Точность модели выбора и точность при перекрёстном повороте измеряют способность модели предсказывать, какое изображение пользователь выберет в данном повороте, и являются ли выбранные изображения улучшением по сравнению с предыдущим поворотом, соответственно.
Результаты показали, что обучение PASTA только на синтетических данных не превзошло базовый показатель, и хотя агент, обученный на реальных данных о людях, продемонстрировал значительное улучшение, он также не превзошел базовый показатель. Однако агент, обученный на комбинации реальных и смоделированных данных, показал наилучшие результаты, подтверждая, что наша симуляция взаимодействия с пользователем успешно отражает ключевые динамики человеческого взаимодействия, обеспечивая при этом масштаб, необходимый для надежного обучения с подкреплением.

Приведенные выше графики показывают точность работы обученной модели пользователя (ось Y) в зависимости от количества рассматриваемых типов пользователей (ось X). В верхнем ряду отображается точность модели на тестовом наборе Pick-a-Pic ( слева ) и ее ранговая корреляция Спирмена на тестовом наборе HPS ( справа ). В нижнем ряду показана точность выбора модели ( слева ) и точность предпочтения перекрестного поворота ( справа ), обе оценки были получены на нашем тестовом наборе, оцененном людьми .
Когда мы попросили экспертов напрямую сравнить финальные изображения, созданные нашим лучшим агентом, с базовым вариантом, 85% предпочли изображения, сгенерированные PASTA. Разница особенно заметна при работе с абстрактными запросами. Начав с простой идеи, такой как «изображение любви», PASTA адаптировалась к различным типам пользователей, создавая самые разнообразные результаты — от нежных портретов до абстрактных геометрических произведений искусства.

При использовании одного и того же начального запроса «Изображение счастья» PASTA выдает совершенно разные результаты для двух разных типов пользователей (тип пользователя A и тип пользователя B), демонстрируя свою способность адаптироваться к уникальному творческому стилю каждого пользователя. Например, результат для типа A соответствует запросу типа «Абстрактные счастливые лица, геометрические формы в стиле ар-деко, приглушенный фон драгоценных оттенков».
Что дальше?
PASTA демонстрирует, что будущее генеративного ИИ может быть более интерактивным, адаптивным к предпочтениям и основанным на сотрудничестве. Разработанные нами методы, в частности использование надежных симуляторов пользователей, могут быть применены ко многим другим задачам генеративного ИИ для создания искусственного интеллекта, который лучше соответствует потребностям пользователей-людей и адаптируется к ним.
Чтобы стимулировать дальнейшие исследования, мы открыли исходный код нашего набора данных о последовательных оценках и смоделированных пользовательских данных. Мы с нетерпением ждём, что сообщество создаст на их основе.
Благодарности
Список авторов: Офир Набати, Гай Тенненхольц, Чи Вэй Сюй, Мункён Рю, Дипак Рамачандран, Иньлам Чоу, Сян Ли и Крейг Бутилье. Особая благодарность Марку Симборгу за помощь в создании этого поста и Кимберли Шведе за создание иллюстраций в этом посте.
Источник: research.google






















