Веселые желтые роботы с табличками "Yes", "Right", "OK" на ярко-зеленом фоне.

Предупреждение: Персонализация LLM может привести к подхалимству и снижению точности

Контекст длительных разговоров может привести к тому, что язык программирования начнет отражать точку зрения пользователя, что потенциально снизит точность или создаст виртуальный эхо-камеру. Робот держит таблички с надписями: «Да! Хорошо! Правильно!» «Если вы долгое время общаетесь с моделью и начинаете передавать ей свои собственные мыслительные процессы, вы можете оказаться в замкнутом информационном пространстве, из которого не сможете выбраться. Это риск, о котором пользователям обязательно следует помнить», — говорит Шомик Джайн. Изображение: MIT News; iStock

Многие из новейших больших языковых моделей (LLM) предназначены для запоминания деталей из прошлых разговоров или хранения профилей пользователей, что позволяет этим моделям персонализировать ответы.

Однако исследователи из Массачусетского технологического института и Университета штата Пенсильвания обнаружили, что в ходе длительных разговоров подобные функции персонализации часто повышают вероятность того, что собеседник станет чрезмерно уступчивым или начнет разделять точку зрения собеседника.

Это явление, известное как подхалимство, может помешать модели сказать пользователю, что он не прав, что снижает точность ответов модели. Кроме того, модели, отражающие политические убеждения или мировоззрение человека, могут способствовать распространению дезинформации и искажать восприятие реальности пользователем.

В отличие от многих предыдущих исследований подхалимства, в которых оценивались подсказки в лабораторных условиях без контекста, исследователи из Массачусетского технологического института собрали данные о разговорах людей, которые в течение двух недель взаимодействовали с реальным лайфстайлом в своей повседневной жизни. Они изучали два контекста: доброжелательность в личных советах и отражение убеждений пользователя в политических объяснениях.

Хотя контекст взаимодействия повышал доброжелательность в четырех из пяти изученных моделей LLM, наибольшее влияние оказывало наличие сжатого профиля пользователя в памяти модели. С другой стороны, зеркальное отражение поведения усиливалось только в том случае, если модель могла точно определить убеждения пользователя на основе разговора.

Исследователи надеются, что эти результаты вдохновят на дальнейшие исследования по разработке методов персонализации, более устойчивых к подхалимству со стороны представителей ЛЛМ (лидеров, любящих женщин).

«С точки зрения пользователя, эта работа подчеркивает, насколько важно понимать, что эти модели динамичны и их поведение может меняться по мере взаимодействия с ними с течением времени. Если вы долгое время общаетесь с моделью и начинаете передавать ей свои мысли на аутсорсинг, вы можете оказаться в замкнутом информационном пространстве, из которого не сможете выбраться. Это риск, о котором пользователям обязательно следует помнить», — говорит Шомик Джайн, аспирант Института данных, систем и общества (IDSS) и ведущий автор статьи по этому исследованию.

Вместе с Джейном в работе над статьей приняли участие Шарлотта Парк, аспирантка факультета электротехники и информатики Массачусетского технологического института (MIT); Мэтт Виана, аспирант Университета штата Пенсильвания; а также соавторы Ашиа Уилсон, профессор кафедры развития карьеры имени братьев Листер на факультете электротехники и информатики и главный исследователь проекта LIDS; и Дана Калаччи, доктор философии (выпуск 2023 года), доцент Университета штата Пенсильвания. Результаты исследования будут представлены на конференции ACM CHI по человеческим факторам в вычислительных системах.

Расширенные взаимодействия

Основываясь на собственном опыте подобострастного поведения в отношениях с моделями поведения, исследователи начали размышлять о потенциальных преимуществах и последствиях чрезмерной покладистости. Однако, изучив литературу для расширения своего анализа, они не обнаружили исследований, которые пытались бы понять подобострастное поведение во время длительного взаимодействия с моделями поведения.

«Мы используем эти модели в ходе длительного взаимодействия, и они обладают большим контекстом и памятью. Но наши методы оценки отстают. Мы хотели оценить модели LLM в том виде, в котором люди их фактически используют, чтобы понять, как они ведут себя в реальных условиях», — говорит Калаччи.

Чтобы восполнить этот пробел, исследователи разработали исследование с участием пользователей, посвященное изучению двух типов подхалимства: подхалимства, основанного на согласии, и подхалимства, основанного на точке зрения.

Подхалимство в согласии — это склонность модели чрезмерно уступчивой, иногда до такой степени, что она предоставляет неверную информацию или отказывается признать неправоту пользователя. Подхалимство в отношении перспективы возникает, когда модель отражает ценности и политические взгляды пользователя.

«Мы многое знаем о преимуществах социальных связей с людьми, имеющими схожие или отличающиеся взгляды. Но мы пока не знаем о преимуществах или рисках длительного взаимодействия с моделями ИИ, обладающими схожими характеристиками», — добавляет Калаччи.

Исследователи разработали пользовательский интерфейс на основе LLM и привлекли 38 участников для общения с чат-ботом в течение двух недель. Разговоры каждого участника происходили в одном и том же контекстном окне, чтобы зафиксировать все данные о взаимодействии.

В течение двух недель исследователи собрали в среднем 90 запросов от каждого пользователя.

Они сравнили поведение пяти LLM в данном контексте взаимодействия с пользователем с поведением тех же LLM, которым не были предоставлены данные о диалоге.

«Мы обнаружили, что контекст действительно коренным образом меняет то, как работают эти модели, и я бы предположил, что это явление выходит далеко за рамки подхалимства. И хотя подхалимство, как правило, возрастало, это происходило не всегда. Все действительно зависит от самого контекста», — говорит Уилсон.

Контекстные подсказки

Например, когда модель LLM обрабатывает информацию о пользователе и формирует конкретный профиль, это приводит к наибольшему росту уровня согласия. Эта функция профилирования пользователя все чаще внедряется в новейшие модели.

Они также обнаружили, что случайный текст из синтетических диалогов повышал вероятность согласия некоторых моделей, даже несмотря на то, что этот текст не содержал данных, специфичных для пользователя. Это говорит о том, что продолжительность разговора иногда может влиять на подхалимство больше, чем его содержание, добавляет Джайн.

Однако содержание имеет огромное значение, когда речь идёт о подхалимстве. Контекст разговора усиливал подхалимство только в том случае, если он раскрывал некоторую информацию о политических взглядах пользователя.

Чтобы получить это представление, исследователи тщательно анализировали модели, чтобы определить убеждения пользователя, а затем спрашивали каждого человека, верны ли выводы модели. Пользователи заявили, что модели LLM точно понимали их политические взгляды примерно в половине случаев.

«Легко задним числом сказать, что компаниям, занимающимся искусственным интеллектом, следовало бы проводить подобную оценку. Но это сложно, требует много времени и инвестиций. Использование людей в процессе оценки обходится дорого, но мы показали, что это может выявить новые закономерности», — говорит Джайн.

Хотя целью их исследования не было смягчение последствий, исследователи разработали ряд рекомендаций.

Например, для уменьшения подхалимства можно разработать модели, которые лучше идентифицируют важные детали в контексте и памяти. Кроме того, можно создать модели для обнаружения зеркального отражения поведения и пометки ответов с чрезмерным согласием. Разработчики моделей также могли бы предоставить пользователям возможность модерировать персонализацию в длительных разговорах.

«Существует множество способов персонализировать модели, не делая их чрезмерно покладистыми. Граница между персонализацией и подхалимством не является тонкой гранью, но разграничение персонализации и подхалимства — важная область для будущих исследований», — говорит Джайн.

«В конечном итоге нам нужны более эффективные способы фиксации динамики и сложности того, что происходит во время длительных бесед с магистрами права, и того, как в этом долгосрочном процессе могут возникать несоответствия», — добавляет Уилсон.

Источник: news.mit.edu

✅ Найденные теги: LLM, новости, Персонализация, Подхалимство, Предупреждение, Точность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Капли дождя падают на землю, образуя брызги на мокрой почве.
Капли дождя падают на землю, создавая брызги на мокрой почве.
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.
Робот-гуманоид Tesla с черной головой и белым туловищем на фоне.
Два персонажа сражаются световыми мечами на темном фоне сцены из фильма.
Археологическая находка: каменная гробница и скелет в древнем сооружении.
Автоматизация программирования на Python: конвейеры, графики и код.
Два человека пожимают руки на фоне синего логотипа компании.
Схематичное изображение человеческого мозга на фоне компьютерных технологий.
Image Not Found
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.

Сегодня астронавты миссии «Артемида-2» установят новый рекорд расстояния от Земли.

Во время полета космического корабля «Орион» вокруг Луны экипаж «Артемиды II» побьет рекорд, установленный «Аполлоном-13» в 1970 году. Эндрю Лишевски, старший репортер отдела новостей. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и…

Апр 9, 2026
Археологическая находка: каменная гробница и скелет в древнем сооружении.

Исследование древнего индивида из Переславля-Залесского указало на его генетически смешанное происхождение

саркофаг V и погребение: А – вид с востока; Б – саркофаг V после снятия погребения и поздней плиты, вид сверху. © ИОГен РАН Археогенетическое исследование погребения из саркофага XIV-XV века в Спасо-Преображенском соборе в Переславле-Залесском показало,…

Апр 9, 2026
Автоматизация программирования на Python: конвейеры, графики и код.

Создание рабочего процесса на Python, который выявляет ошибки до запуска в производство.

Использование современных инструментов для выявления дефектов на более ранних этапах жизненного цикла программного обеспечения. Делиться Python — один из тех языков, который позволяет почувствовать себя продуктивным практически мгновенно. В этом во многом и заключается его популярность. Переход…

Апр 9, 2026
Два человека пожимают руки на фоне синего логотипа компании.

Intel присоединяется к проекту Илона Маска по производству чипов Terafab.

Вкратце Источник изображения: Intel (откроется в новом окне) Компания Intel присоединится к SpaceX и Tesla в стремлении построить новый завод по производству полупроводников в США, в штате Техас, хотя масштабы ее вклада пока неясны. «Наша способность проектировать,…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых