Image

Прямой диалог с лентой или будущее рекомендательных систем

76962b56395ce18da0dccdd2d4d40f44

Мы давно привыкли к лентам рекомендаций, которые будто сами знают, что нам показать. Но чаще всего они угадывают по косвенным признакам — кликам, лайкам, редким дизлайкам. Это пассивная петля: система что‑то показывает, мы как‑то реагируем, а дальше алгоритм сам додумывает причины. Отсюда искажения: не понятно, что именно понравилось, а что раздражает, и почему. И чем дальше, тем сильнее эффект фильтров — круг однотипного контента, который тяжело разорвать.

В пассивной ленте система видит только клики и лайки, а в интерактивной — понимает текстовые команды и тут же корректирует политику показа.
В пассивной ленте система видит только клики и лайки, а в интерактивной — понимает текстовые команды и тут же корректирует политику показа.

Авторы работы предлагают сменить парадигму. Вместо немого скролла — активные команды внутри самой ленты: Interactive Recommendation Feed (IRF). Пользователь пишет короткие фразы прямо по месту: дешевле, без цветочков, побольше карманов, не старше 2020, и т.д. Система тут же пересобирает выдачу. Важно, что это не отдельный чат, как в системах рекомендаций через диалог, а живое управление основной лентой.

Что именно нового

В сердце решения — RecBot, мультиагентная система на базе LLM. Два агента делят работу:

  • Парсер достаёт из свободного текста чёткую структуру предпочтений.

  • Планировщик оркестрирует инструменты и мгновенно перестраивает политику рекомендаций.

Ключевой акцент — на явном учёте позитивных и негативных намерений. На продакшене, отмечают авторы, около 57% команд — именно отрицательные. Это тот сигнал, которого так не хватает классическим моделям.

Двухагентная схема RecBot: парсер превращает текст в структурированные предпочтения, планировщик вызывает инструменты и формирует новую ленту.
Двухагентная схема RecBot: парсер превращает текст в структурированные предпочтения, планировщик вызывает инструменты и формирует новую ленту.

Как это работает под капотом

Парсер обучен раскладывать намерения на позитивные и негативные, а каждую группу делить на жёсткие правила (hard) и мягкие склонности (soft). Он ведёт память диалога: сохраняет релевантные требования, добавляет новые, снимает устаревшие при явных сигналах вроде больше не интересует. Это снижает вычислительные издержки и убирает смысловой дрейф при долгих сессиях.

Парсер объединяет текущую ленту, команду и историю предпочтений, чтобы собрать актуальные требования.
Парсер объединяет текущую ленту, команду и историю предпочтений, чтобы собрать актуальные требования.

Планировщик превращает структуру намерений в новый скоринг

  • Filter. Применяет жёсткие ограничения и отбрасывает неподходящее сразу.

  • Matcher. Мягкий скоринг: семантическая близость (эмбеддинги) плюс коллаборативная фильтрация, которая учитывает историю пользователя и контекст намерений.

  • Attenuator. Штрафует за близость к нежелательным признакам.

  • Aggregator. Складывает оценки и собирает топ‑K.

Инструменты вызываются по потребности: сначала сужаем пространство через Filter, затем параллельно считаем матчинги и штрафы, в конце агрегируем. Всё работает на лету.

Планировщик динамически строит цепочку вызовов инструментов и обновляет оценки объектов для следующей ленты.
Планировщик динамически строит цепочку вызовов инструментов и обновляет оценки объектов для следующей ленты.

Лучшие закрытые LLM нередко точнее, но дороги. Авторы пошли путём симуляционно‑усиленной дистилляции: построили симулятор пользователя с персоной и целевым предметом, разыгрывали интерактивные сессии с учительской версией RecBot и собирали сценарии взаимодействия. Затем обучили более лёгкого студента (Qwen‑модель) повторять логику учителя. В ряде сценариев студент даже обошёл учителя — редкий, но приятный эффект правильной симуляции и таргетированного тюнинга.

Что получилось в экспериментах

Оффлайн тесты проводились на Amazon Books, MovieLens и Taobao с тремя сценариями:

  • SR: одна точная команда.

  • MR: до пяти раундов уточнений.

  • MRID: многотуровый диалог со сдвигом интересов.

RecBot уверенно превосходит сильные бейзлайны. Примеры:

  • Amazon, SR: R@10 у RecBot‑GPT 0.2459 против 0.0598 у BGE.

  • MovieLens, SR: 0.4293 против 0.1370 у BGE.

  • Taobao, SR: 0.4918 против 0.2122 у InteRecAgent.

В многотуровых задачах преимущество растёт: на Taobao (MR) Pass Rate у RecBot‑GPT — 41.14% против 18.42% у InteRecAgent при меньшем среднем числе раундов.

Абляции показывают, что выигрывает именно комбинация компонентов: фильтрация по жёстким правилам плюс персонализированный матчер и явная модель отрицательных намерений.

Абляционное исследование: полный состав инструментов стабильно лучше урезанных вариантов.
Абляционное исследование: полный состав инструментов стабильно лучше урезанных вариантов.

Онлайн на реальной витрине e‑commerce три месяца A/B‑тестов дали ощутимый прирост:

  • NFF (частота негативной обратной связи): −0.71%.

  • CICD (разнообразие категорий кликов): +1.44%.

  • ATC: +1.28%; GMV: +1.40%.

Отдельно отмечу сегментацию: у пользователей с умеренным количеством негативов NFF снижается до −3.3%, а вот экстремально требовательная группа остаётся вызовом.

Динамика онлайн‑метрик в A/B‑тесте: рост разнообразия и бизнес‑показателей при одновременном снижении негативной обратной связи.
Динамика онлайн‑метрик в A/B‑тесте: рост разнообразия и бизнес‑показателей при одновременном снижении негативной обратной связи.

В живых сессиях система корректно исполняет команды в 88–89% случаев по оценке экспертов и LLM‑судьи, что удобно для масштабного мониторинга качества.

Кейс на витрине выглядит естественно: длинные юбки → светло‑голубые → около 200 → без флорала — и на четвёртом раунде попадание в точку.

Пример последовательного уточнения: учёт всех накопленных условий и успешная конвергенция.
Пример последовательного уточнения: учёт всех накопленных условий и успешная конвергенция.

Почему это важно

IRF закрывает коммуникационный тупик между человеком и алгоритмом: вместо угадываний — прямые инструкции на естественном языке и мгновенная реакция. Это расширяет разнообразие, уменьшает эффект информационного пузыря и, как показывают данные, помогает бизнесу. Вперёд — к онлайн‑обучению, более персональному рассуждению, проактивным подсказкам и понятным объяснениям решений.

📜 Полная статья

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Источник: habr.com

✅ Найденные теги: новости, Прямой
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых