Таблица инвестиций: лизинг и кредиты, регионы Америка, EMEA, Азиатско-Тихоокеанский регион.

Учимся прояснять ситуацию: многоходовые беседы с помощью самообучения контрастному анализу на основе действий.

792c145fb9fcf3af02c1ffa7a67dc7d7

Мы предлагаем метод контрастивного самообучения на основе действий (Action-Based Contrastive Self-Training), эффективный с точки зрения использования данных подход к настройке контрастивного обучения с подкреплением для улучшения моделирования многоходовых диалогов в условиях взаимодействия с участием людей, проявляющих смешанную инициативу.

Быстрые ссылки

Большие языковые модели (БЛМ), оптимизированные на основе обратной связи от пользователей, быстро стали ведущей парадигмой для разработки интеллектуальных диалоговых агентов. Однако, несмотря на их высокую производительность во многих тестовых задачах, агентам на основе БЛМ по-прежнему может не хватать навыков многоходового диалога, таких как разрешение неоднозначности — сталкиваясь с неопределенностью, они часто уклоняются от ответа или неявно угадывают истинные намерения пользователей, вместо того чтобы задавать уточняющие вопросы. При этом количество высококачественных примеров диалогов часто ограничено, что является узким местом для способности БЛМ обучаться оптимальным действиям в диалоге.

В докладе «Обучение уточнению: многоходовые диалоги с использованием контрастивного самообучения на основе действий» (представленном на ICLR 2025) мы предлагаем алгоритм контрастивного самообучения на основе действий (ACT), квази-онлайн алгоритм оптимизации предпочтений, основанный на прямой оптимизации предпочтений (DPO), который обеспечивает эффективное с точки зрения данных обучение политике диалога в многоходовом моделировании разговоров. Мы демонстрируем эффективность ACT в сценариях эффективной настройки с использованием данных, применяя множество реальных задач диалога, таких как ответы на вопросы на основе таблиц и машинное понимание прочитанного. Мы также представляем AmbigSQL, новую задачу для разрешения неоднозначности запросов на поиск информации для генерации сложного кода языка структурированных запросов (SQL) с целью облегчения разработки агентов анализа данных. Кроме того, мы предлагаем оценить способность LLM функционировать в качестве диалоговых агентов, изучив, могут ли они неявно распознавать и рассуждать об неоднозначности в разговоре. Метод ACT демонстрирует существенное улучшение моделирования диалогов по сравнению со стандартными подходами к настройке, такими как контролируемая тонкая настройка и DPO.

L2C1-ОбзорГерой

Разговорный агент, способный к разрешению неоднозначностей, мог бы распознать наличие неоднозначности и задать уточняющий вопрос для получения более точного окончательного ответа.

Новый взгляд на разговорное мышление

Традиционные нейронные подходы к созданию диалоговых агентов обычно состоят из двух основных компонентов: модуля для понимания и планирования диалога (например, задача бинарного прогнозирования для определения уместности задавания уточняющего вопроса) и модуля генерации, который может выполнять такие действия в диалоге (т. е. формировать уточняющий вопрос или попытку ответа). Однако в современной парадигме взаимодействия LLM-ы обычно адаптируются для сквозного использования в диалоговых приложениях без промежуточного этапа планирования. Мы предлагаем прямую оптимизацию планирования действий в диалоге как неявную подзадачу генерации ответа. Мы называем эту парадигму неявным планированием действий.

Обучение модели LLM для последующего использования состоит из трех этапов: предварительное обучение, контролируемая тонкая настройка (SFT) для следования инструкциям и настройка для соответствия предпочтениям человека. Распространенным алгоритмом, используемым на этом заключительном этапе настройки, является DPO, алгоритм контрастивного обучения вне политики, предназначенный для оптимизации вероятностей выигрышных и проигрышных последовательностей, таких как ответы в разговоре. Однако такие алгоритмы, как правило, все еще не соответствуют многоходовому характеру разговоров. Предложенный алгоритм ACT призван решить эти проблемы.

Этап 1: Генерация сравнительных данных на основе действий.

Первый этап построения ACT включает в себя создание набора данных о предпочтениях, состоящего из пар ответов в диалоге, где один соответствует выигрышному действию, а другой — проигрышному.

Мы начинаем с исходного набора данных, описывающего диалог. Для каждого хода диалога в этом наборе данных мы используем историю разговора как часть входного запроса («Покажите мне информацию…» на рисунке ниже) в дополнение к любому необходимому контексту, специфичному для задачи (например, схеме базы данных SQL), и рассматриваем этот ход как выигрышный ответ («Что конкретно…», ниже). Этот выигрышный ответ выражает действие (здесь «Уточнить»), и, таким образом, мы синтезируем отклоненный ответ, представляющий собой некоторое обратное действие (здесь «Ответить»), используя некоторую модель условной генерации. Результатом этого этапа является парный набор данных, в котором каждый из отклоненных ответов генерируется синтетически.

L2C2-Генерация данных

Обзор этапа генерации данных в рамках проекта ACT.

Этап 2: Контрастное самообучение

Второй этап включает настройку модели политики с использованием целевой функции DPO. Мы можем использовать подсказки из первого этапа, но вместо прямого запуска DPO с использованием ранее построенных контрастных пар, мы выполняем обучение на основе политики, руководствуясь несколькими интуитивными соображениями:

  • Алгоритмы, подобные DPO, работают путем оптимизации логарифмических вероятностей, присвоенных выигрышным и проигрышным ответам.
  • По своей сути, выборка ответов в соответствии с политикой приводит к получению последовательностей токенов с высокой вероятностью.
  • Для улучшения разговорных навыков необходима оптимизация на протяжении нескольких диалогов, которую сложно выразить, используя только пары контрастов, повторяющиеся в одном диалоге.

На рисунке ниже показано, как работает ACT в соответствии с этими интуитивными представлениями. Вместо прямого обновления градиента в автономном режиме с использованием фиксированных контрастных пар, мы выполняем выборку в рамках политики. Сначала мы определяем, выражает ли ответ правильное действие (например, уточняющий вопрос), и если да, то моделируем результат траектории и оцениваем результат по отношению к намерению поиска информации, заданному в исходном разговоре. В зависимости от того, является ли результат правильным, мы заменяем либо выигрышный, либо проигрышный ответ из контрастной пары на этапе 1 смоделированной многошаговой траекторией .

L2C4-Финал

Обзор этапа настройки ACT. Для каждой начальной пары контрастных вариантов из набора данных предпочтений Фазы 1 мы выбираем ответ, соответствующий политике, из модели, которая настраивается. Мы оцениваем траекторию, полученную в результате выбора ответа, а затем обновляем пару контрастных вариантов, заменяя существующий выигрышный или проигрышный ответ. Политика обновляется с использованием целевой функции DPO.

Развитие передовых возможностей моделирования многооборотных процессов.

Мы экспериментировали с ACT, используя LLM с открытыми весами, на разнообразном наборе данных для многоходовых диалогов: PACIFIC (рассуждение над таблицами, смешанными с текстом), Abg-CoQA (рассуждение над сложными фрагментами текста) и AmbigSQL (генерация текста в SQL). Мы сравнивали результаты с различными конкурирующими базовыми моделями, включая:

  • Контролируемая тонкая настройка с использованием функции потерь на основе кросс-энтропии (SFT)
  • Итеративная оптимизация предпочтений на основе рассуждений (IRPO)
  • Использование примеров контекстного обучения (ICL) в Gemini 1.5 для стимулирования работы системы.
  • Использование примеров ICL для обучения Клода (версия 3.5).

Диалоговые ответы на вопросы с использованием табличных данных по Тихоокеанскому региону.

На рисунке ниже видно, что во всех трех вариантах оптимизации данных, рассмотренных для PACIFIC, ACT демонстрирует наилучшие результаты по всем метрикам по сравнению с SFT и Gemini с подсказками, что имеет преимущество в виде дополнительных вычислений во время тестирования. В частности, ACT обеспечивает относительное улучшение до 19,1% по сравнению с SFT при измерении способности настроенной модели неявно распознавать неоднозначность (с 69,0 до 82,2 Macro F1) при использовании всего 50 диалогов в качестве данных для настройки. Мы также отмечаем, что ACT значительно улучшил эффективность использования данных по сравнению с SFT на основе адаптера с Gemini Pro, с относительным улучшением до 35,7% в производительности многоходовой задачи (с 45,6 до 61,9 по показателю DROP F1 на уровне траектории). Кроме того, настройка с помощью ACT в этих условиях ограниченного объема данных позволяет модели соответствовать или превосходить передовые LLM, используемые с контекстным обучением, несмотря на отсутствие контекстных примеров во время вывода. В целом, мы обнаружили, что обучение на основе стратегии и моделирование траектории в несколько этапов имеют решающее значение для повышения эффективности достижения целей в несколько этапов.

Результаты L2C4

Метод ACT значительно превосходит стандартные подходы к настройке в условиях эффективного использования данных при моделировании диалогов.

В нашей статье мы представляем расширенные результаты на корпусе PACIFIC, где демонстрируем, что ACT превосходит IRPO. Кроме того, мы приводим результаты, полученные на Abg-CoQA и AmbigSQL.

Приписывание повышения успеваемости результатам ACT

Мы провели несколько экспериментов, чтобы понять преимущества каждого компонента ACT, результаты которых представлены ниже:

Таблица L2C5

Исследование абляции различных компонентов АКТ с использованием PACIFIC.

Необходимы ли предпочтения, основанные на действиях? Один из ключевых факторов ACT заключается в том, что контрастные пары подчеркивают различия между действиями в разговоре. В работе «ACT со случайными действиями» мы дополнительно исследуем важность выбора действия, случайным образом выбирая как выигрышное, так и проигрышное действие при построении пары предпочтений, и наблюдаем, что это дает худшие результаты по сравнению с обычным ACT.

Нужна ли нам выборка в рамках политики? В работе «ACT без выборки в рамках политики» мы исследуем важность выборки в рамках политики, оценивая обычный DPO вне политики на наборе данных, созданном на этапе 1. Хотя мы наблюдаем некоторые улучшения по сравнению с SFT (например, с 69,0 до 74,8 Macro F1), общие улучшения гораздо больше при использовании выборки в рамках политики, чем при полной ACT. Это может быть связано с тем, что отрицательные ответы вне политики не гарантированно находятся в языковом многообразии модели политики, и сдвиг распределения может быть слишком сложным для преодоления с помощью обучения вне политики.

Необходима ли симуляция траектории? ACT лучше подходит для многоходовых диалогов благодаря симуляции траектории. Без многоходовой симуляции наш подход можно рассматривать аналогично вариантам DPO, основанным на политике, таким как IRPO, но с сигналом вознаграждения, специфичным для диалога, который учитывает действия в диалоге и эвристики задач. В работе «ACT с выборкой без симуляции» мы обнаружили, что эта симуляция на уровне траектории имеет решающее значение для повышения производительности в многоходовых диалогах, особенно для способности модели политики рассуждать о собственных уточняющих вопросах.

Является ли ACT модель-независимой? Базовая модель в наших основных экспериментах, Zephyr, получена путем выравнивания Mistral. В эксперименте «ACT с невыровненными базовыми моделями» мы наблюдаем разницу в производительности в 6,5 Action F1 и 4,3 Trajectory F1 после настройки ACT для двух моделей. Однако наши результаты показывают, что ACT может улучшить производительность независимо от предварительного выравнивания с обратной связью от человека, хотя он может помочь в качестве улучшенной инициализации модели. В целом, мы обнаружили, что улучшение производительности базовой модели с помощью ACT не зависит от модели.

Будущее моделирования многоходовых диалогов

Мы предлагаем ACT — независимый от модели квази-онлайн подход к контрастной настройке для эффективной адаптации к задачам диалогового взаимодействия, а также рабочий процесс для оценки диалоговых агентов. Мы демонстрируем обнадеживающие результаты, свидетельствующие о высокой эффективности ACT для адаптации к задачам в условиях ограниченного объема данных. В будущих исследованиях можно также рассмотреть возможность объединения ACT с существующими сложными подходами к настройке для сложных задач, таких как генерация текста в SQL, а также обобщение на большие объемы данных и многозадачные среды.

Благодарности

Мы глубоко благодарны Ханьцзюнь Дай за полезные отзывы о нашей рукописи, а также Та-Чун Чи и Кунь Цянь за их советы. Мы также хотели бы отметить Криса Барона и Випина Наира, чьи усилия сыграли решающую роль в успехе этой работы. Эта работа была выполнена в Google Cloud AI Research, где Максимилиан Чен был студентом-исследователем, а Руоси Сунь — научным сотрудником.

    Источник: research.google

    ✅ Найденные теги: Беседы, Действия, Контрастный Анализ, новости, самообучение, Учение, Учимся

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Цилиндр на марсианской поверхности, покрытой красным песком и камнями.
    Иллюстрация Боккаччо о чуме во Флоренции: сцены эпидемии и хаоса в городе.
    Камера видеонаблюдения на столбе синим небом на фоне.
    3D-модель молекулы пиридина: каркас атомов углерода, водорода и азота.
    Цифровая сеть с данными и технологическими элементами, символизирующими обработку информации.
    Рулевое колесо электромобиля Lucid с современным дизайном интерьера.
    ideipro logotyp
    Изолированные среды восстановления становятся важнейшим элементом киберустойчивости.
    Запустите модель искусственного интеллекта для преобразования речи в речь в реальном времени локально.
    Image Not Found
    Камера видеонаблюдения на столбе синим небом на фоне.

    Внутри чикагского паноптикума слежки

    Для многих жизнь в Чикаго и его окрестностях означает практически постоянное наблюдение во имя общественной безопасности. Познакомьтесь с жителями города, которые взаимодействуют с этим противоречивым пространством. «Я не думаю, что в США есть еще один город с…

    Мар 12, 2026
    3D-модель молекулы пиридина: каркас атомов углерода, водорода и азота.

    «Наноловушки» помогут в извлечении золота из электронных отходов

    Индол — один из бензазолов, основы для наноловушек © Wikimedia Commons Химики Томского политехнического университета совместно с коллегами из Китая предложили эффективный, экологический и более безопасный способ извлечения золота из электронных отходов. Для этого ученые разработали двумерные…

    Мар 12, 2026
    Цифровая сеть с данными и технологическими элементами, символизирующими обработку информации.

    Безотходная агентная RAG: проектирование архитектур кэширования для минимизации задержки и затрат на LLM в масштабе

    Сокращение затрат на LLM на 30% за счет многоуровневого кэширования с учетом проверки подлинности. Делиться Технология генерации с расширенными возможностями поиска (Retrieval-Augmented Generation, RAG) вышла из экспериментальной фазы и прочно вошла в корпоративную эксплуатацию. Мы больше не…

    Мар 12, 2026
    Рулевое колесо электромобиля Lucid с современным дизайном интерьера.

    Компания Lucid Motors поставляет Apple CarPlay и Android Auto владельцам внедорожника Gravity.

    Вкратце Источник изображений: Lucid Motors Компания Lucid Motors объявила в среду утром, что в четверг выпустит обновление программного обеспечения для владельцев внедорожника Gravity в Северной Америке, которое позволит использовать Apple CarPlay и Android Auto. Владельцы в Европе…

    Мар 12, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых