
Мы представляем новый эталонный набор данных, который поможет программам обучения с использованием языка программирования предоставлять более контекстуализированные рекомендации посредством взаимодействия на естественном языке.
Быстрые ссылки
- Бумага REGEN
- Набор данных REGEN
- Бумага FLARE
- Делиться
Большие языковые модели (LLM) меняют подход к взаимодействию рекомендательных систем с пользователями. Традиционные системы рекомендаций сосредоточены на прогнозировании следующего товара, который может понравиться пользователю — книги, обувь, канцелярские товары и т. д. — на основе предыдущих взаимодействий. Но реальная цель идет дальше: нам нужны системы, которые взаимодействуют с пользователями, понимают их потребности, адаптируются на основе обратной связи на естественном языке и объясняют, почему та или иная рекомендация имеет смысл. Однако в настоящее время не существует наборов данных для изучения этих новых возможностей.
Для решения этой проблемы мы разработали Reviews Enhanced with GENerative Narratives (REGEN) — новый эталонный набор данных, который включает рекомендации товаров, особенности естественного языка, состоящие из синтетических отзывов пользователей, и персонализированные повествования, включающие причины покупки и рекомендации товаров. Вместо того чтобы начинать с нуля, мы дополнили широко используемый набор данных Amazon Product Reviews, синтезировав недостающие элементы диалога с помощью Gemini 1.5 Flash. Этот набор данных позволяет нам исследовать и сравнивать новые архитектуры рекомендательных систем, которые учитывают как отзывы пользователей (например, FLARE), так и те, которые выдают естественный язык, соответствующий рекомендациям (например, LUMEN). Наши результаты показывают, что языковые модели, обученные на нашем наборе данных, эффективно генерируют как рекомендации, так и контекстные повествования, достигая производительности, сопоставимой с современными рекомендательными системами и языковыми моделями.
Создание набора данных REGEN
Существующие наборы данных для обучения рекомендательных систем на основе диалогов часто не в полной мере отражают нюансы реальных разговоров. Они могут быть сосредоточены на прогнозировании последовательности элементов, коротких фрагментах диалогов или не содержать явной обратной связи от пользователя. Мы выбрали набор данных Amazon Product Reviews из-за его специфической полезности для работы с большими словарями, что может быть незнакомо студентам магистратуры.
REGEN обогащает набор данных отзывов Amazon двумя ключевыми компонентами:
Критика
Критика — важнейший аспект диалоговых рекомендаций, позволяющий пользователям выражать свои предпочтения и направлять систему. В REGEN критика генерируется для того, чтобы направлять систему рекомендаций от текущего товара к похожему, желаемому товару. Например, пользователь может оценить «красную шариковую ручку», сказав: «Я бы предпочел черную».
Чтобы обеспечить релевантность отзывов, мы генерируем их только для смежных пар товаров, которые достаточно похожи, используя иерархические категории товаров, предоставленные Amazon Reviews, в качестве показателя сходства. Модель Gemini 1.5 Flash генерирует несколько вариантов отзывов для каждой пары, из которых мы случайным образом выбираем один для включения в набор данных.
Повествования
Описания предоставляют богатую контекстную информацию о рекомендуемых товарах, улучшая пользовательский опыт. REGEN включает в себя разнообразные описания, такие как:
- Причины покупки : Объяснение того, почему тот или иной товар может подойти пользователю.
- Отзывы о товаре : описания, подчеркивающие преимущества и характеристики товара.
- Сводные данные о пользователях : Краткие профили предпочтений пользователей и истории покупок.
Эти повествования различаются по контексту и длине, предоставляя богатый набор данных для обучения систем рекомендаций в формате диалога.
Эксперименты
Для эффективной оценки REGEN мы хотели проверить не только способность моделей рекомендовать подходящий товар, но и их умение объяснять свои рассуждения, адаптироваться к обратной связи и генерировать текст, который воспринимается пользователем индивидуально. Поэтому мы сформулировали новый тип задачи: совместная генеративная рекомендация в диалоговом режиме. Идея проста, но эффективна: имея историю покупок и, при необходимости, критику на естественном языке (например, «Мне нужно что-то с большим объемом памяти»), модель должна рекомендовать следующий товар и сгенерировать контекстное описание к нему.
Эта задача отражает естественное взаимодействие пользователей с системами рекомендаций, когда им предоставляется возможность выразить свои предпочтения своими словами. Она также отходит от разрозненного моделирования, где рекомендации и генерация языка обрабатываются отдельно. Вместо этого мы рассматриваем оба процесса как часть единой сквозной задачи.
Для изучения различных подходов к моделированию мы разработали и внедрили две базовые архитектуры. Первая представляет собой гибридную систему, в которой последовательная рекомендательная система (FLARE) предсказывает следующий элемент на основе коллаборативной фильтрации и сигналов контента. Затем этот результат подается в облегченную LLM (Gemma 2B), которая отвечает за генерацию повествования. Эта конфигурация отражает распространенную архитектуру в производственных системах, где различные компоненты специализируются на разных этапах конвейера.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Вторая архитектура — LUMEN (LLM-based Unified Multi-task Model with Critiques, Recommendations, and Narratives). LUMEN выполняет все задачи внутри одной LLM. Она обучается сквозным методом для обработки критических замечаний, генерации рекомендаций и создания связных повествований. В процессе декодирования модель решает, когда выдавать идентификатор элемента, а когда продолжать генерацию естественного языка. Мы модифицировали слои словаря и встраивания, чтобы поддерживать оба типа выходных данных — токены элементов и текстовые токены, — что позволило модели рассматривать рекомендации элементов как еще одну часть генеративного процесса.
воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука
Этот двойной подход — гибридный против полностью генеративного — позволяет нам оценить компромиссы между модульностью и интеграцией и обеспечивает прочную основу для измерения того, насколько хорошо модели могут справиться с этой более целостной задачей диалога.
Результаты
Наши эксперименты показывают, что REGEN может существенно конкурировать и дифференцировать модели как в задачах рекомендаций, так и в задачах генерации. В наборе данных Amazon Product Reviews, посвященном офисной тематике, мы заметили, что включение отзывов пользователей во входные данные неизменно улучшало показатели рекомендаций в обеих архитектурах. Например, и без того превосходная производительность гибридной модели FLARE (0,124) по показателю, измеряющему, как часто желаемый товар появляется в топ-10 прогнозируемых результатов (известному как Recall@10), увеличилась до 0,1402 после включения отзывов в набор данных Office, что является заметным скачком, подчеркивающим ценность уточнения на основе языка.
Результаты LUMEN оказались конкурентоспособными, хотя и немного уступали традиционным показателям рекомендаций. Это неудивительно, учитывая возросшую сложность одновременного создания элемента и повествования за один проход. Однако его настоящая сила заключается в способности поддерживать согласованность между элементом и создаваемым текстом. В отличие от модульных конвейеров, где несоответствия между компонентами могут приводить к неуклюжим или общим объяснениям, повествования LUMEN, как правило, более естественно согласуются с историей пользователя и контекстом его критики.
В процессе генерации мы оценивали результаты с помощью BLEU, ROUGE и семантического сходства. Гибридная модель в целом показала более высокие результаты по BLEU и ROUGE, особенно в отношении рекомендаций продуктов и причин покупки, вероятно, потому что LLM получала правильный элемент в качестве подсказки. LUMEN, напротив, имела несколько меньшее перекрытие n -грамм, но сохранила сильное семантическое соответствие, особенно для пользовательских резюме, которые больше основывались на долгосрочном поведении пользователей, чем на конкретном элементе (подробнее см. в статье).

Эти результаты выявляют несколько интересных закономерностей. Нарративы, которые в первую очередь зависят от пользователя, например, краткие описания его предпочтений, обеим моделям проще генерировать согласованно. Но когда нарратив тесно связан с контекстом товара, например, рекомендация продукта, производительность в большей степени зависит от точности рекомендаций. Если модель рекомендует неправильный товар, это может исказить весь нарратив. Этот эффект более выражен в LUMEN, где товар и нарратив генерируются совместно, что делает проверку согласованности между всеми элементами более строгой.
Мы также оценили производительность на гораздо большем пространстве товаров, используя область «Одежда», которая содержит более 370 000 уникальных товаров (в 5–60 раз больше, чем любая другая категория товаров). Нам неизвестно, чтобы кто-либо еще проводил оценки на этом гораздо большем наборе данных по одежде, что является ключевым отличием FLARE и REGEN. Даже в этой более сложной среде гибридная система показала хорошие результаты, и мы снова увидели явное увеличение показателя Recall@10 с 0,1264 до 0,1355 при включении критических замечаний, что подтверждает правильность дизайна REGEN как эталона, который поощряет тонкое, управляемое пользователем мышление.

Заключение
REGEN предоставляет набор данных с согласованными предпочтениями пользователей, рекомендациями и сгенерированными нарративами, что позволяет изучать возможности LLM в системах рекомендаций на основе диалогов. Мы оценили REGEN, используя LUMEN, модель на основе LLM для совместных рекомендаций и генерации нарративов, продемонстрировав ее полезность наряду с моделями последовательных рекомендаций. Мы считаем, что REGEN служит фундаментальным ресурсом для изучения возможностей моделей рекомендаций на основе диалогов, что является важным шагом на пути к персонализированным многоходовым системам.
REGEN развивает подход к рекомендациям в диалоговом режиме, интегрируя язык в качестве фундаментального элемента, что улучшает интерпретацию и реагирование рекомендательных систем на предпочтения пользователей. Такой подход способствует исследованиям многоэтапных взаимодействий, в которых системы могут вести длительные диалоги для уточнения рекомендаций на основе меняющейся обратной связи от пользователей.
Этот набор данных также способствует разработке более сложных моделей и методик обучения. Он поддерживает исследования по масштабированию возможностей моделей, использованию передовых методов обучения и адаптации методологии к различным областям, выходящим за рамки отзывов на Amazon, таким как путешествия, образование и музыка.
В конечном итоге, REGEN задает новое направление для рекомендательных систем, делая акцент на понимании и взаимодействии, что открывает путь к более интуитивно понятным, поддерживающим и человекоподобным рекомендациям.
Благодарности
Мы хотели бы поблагодарить наших соавторов статей FLARE и REGEN, без которых эта работа была бы невозможна: Лиама Хеберта из Университета Ватерлоо и Куна Су, Джеймса Пайна, Мариалену Кириакиди, Юрия Василевского, Рагхавендру Васудеву, Амбариша Джаша, Сукхдипа Содхи и Анушью Суббиа из Google Research. Кроме того, мы благодарны за поддержку и руководство наших руководителей: Викрама Аггарвала, Джона Андерсона, Димы Кузьмина, Эмиля Прауна и Сарвджита Сингха. Мы также благодарны Кимберли Шведе, Марку Симборгу и редакционному коллективу блога Google Research за помощь в представлении нашей работы более широкой аудитории. Наконец, мы выражаем признательность авторам статьи « Обоснование рекомендаций с использованием отзывов с отдаленной маркировкой и детальных аспектов » за предоставление набора данных отзывов о товарах Amazon, использованного в нашей работе.
Источник: research.google






















