Могут ли модели больших языковых моделей заменить респондентов опросов?
Как метод «разучивания» устраняет проблему сбоя режимов в синтетических ответах на опросы
Делиться

Что произойдет, если попросить модель больших языковых моделей (LLM) смоделировать ответы 6000 американских домохозяйств на вопросы об инфляции? Недавние исследования показывают, что большие языковые модели могут воспроизводить средние ответы крупных опросов домохозяйств с точностью до одного процентного пункта (Zarifhonarvar, 2026). В 2020 году опрос потребительских ожиданий (SCE) показал медианный уровень инфляции на год вперед около 3%. Медианный показатель, полученный с помощью модели LLM с реалистичными персонами и инструкцией по пороговому уровню знаний, также составил около 3%. Это достаточно близко, чтобы модели LLM позиционировались как недорогое и высокочастотное дополнение к опросам SCE, Мичиганского университета и опросу профессиональных прогнозистов.
В недавней статье «Могут ли LLM имитировать опросы домохозяйств?», написанной в соавторстве с Ами Даллул из Университета Дуйсбург-Эссен, мы рассматриваем второй момент — часть распределения вероятностей, которая показывает, представляет ли модель одно мнение или тысячу. Именно здесь кажущийся успех опросов на основе LLM исчезает. Та же модель Llama-3, которая попадает в медиану SCE с точностью до одного процентного пункта, помещает 95% смоделированных респондентов в двухпроцентный диапазон. Реальные ответы SCE 2020 года варьируются примерно от -25 до +27 процентов. Короче говоря, среднее значение верно, но популяции, стоящей за ним, не существует. Таким образом, запуск симуляции с несколькими тысячами LLM-персон сводится к одному репрезентативному агенту.
Рисунок 1 : Распределение реальных и синтетических выборок в ходе опроса.

Примечание: На левой панели показано распределение ответов отдельных респондентов SCE 2020 года относительно их среднего значения. Рассеянное излучение отражает неоднородность убеждений среди респондентов. На средней панели та же конструкция применяется к синтетическим ответам модели Llama-3.1-8B-Instruct, полученным с помощью персон, соответствующих демографическому распределению SCE. Разброс сужается до одной точки. Модель восстанавливает среднее значение и отбрасывает все остальное. На правой панели используется та же модель Llama, но без обучения, с градиентным подъемом (GA). Модель без обучения обеспечивает более реалистичное распределение и не сужается вокруг моды.
Сворачивание режима
Мы провели сравнительный анализ пяти моделей прогнозирования погоды (Llama-3-8B, Llama-3-70B, Claude-3.7-Sonnet, DeepSeek-V3, GPT-4o) с данными опросов SCE, Мичиганского опроса и опроса профессиональных синоптиков. В опросах с участием людей от 44 до 70% респондентов дают ответы, отличающиеся более чем на 3 процентных пункта от наиболее часто встречающегося; в выборках моделей прогнозирования погоды эта доля практически равна нулю.
Стандартные методы, описанные в литературе по моделированию опросов, не решают эту проблему. Созданные на основе данных переписи населения персоны со сложными и разнообразными характеристиками, инструкции с нулевым уровнем знаний («вы не знаете событий после июня 2018 года») и явные подсказки «не ищите статистику» по умолчанию приводят к одному и тому же узкому распределению. Вероятная причина заключается в том, что в своих учебных корпусах студенты видят таблицы ИПЦ, новостные сообщения о результатах опросов ФРБН и академические исследования. При запросе медианного прогноза инфляции на 2020 год модель выполняет поиск по запомненным данным. Вес этих обучающих данных перевешивает любые указания, содержащиеся в инструкциях.
Разучивание основ магистратуры в области права
Если проблема заключается в запомненных статистических данных, потенциальным решением может быть их удаление из весов, а не просьба к модели игнорировать их. Мы применили два метода разучивания к модели Llama-3.1-8B-Instruct, модели с открытым исходным кодом, которая позволяет нам изменять ее веса:
- Метод градиентного подъема (Gradient Ascent, GA) максимизирует потери прогнозирования на наборе рядов CPI и агрегированных данных опросов, исключая потери при рассуждениях на основе микроопросов, чтобы сохранить общую производительность.
- Метод оптимизации отрицательных предпочтений (NPO) рассматривает множество забываемых элементов как нежелательные варианты завершения и минимизирует ограниченную потерю предпочтений по сравнению с эталонной моделью.
Данные, которые мы просим модель забыть, — это сами официальные данные об инфляции: ежемесячные ряды индекса потребительских цен и опубликованные средние инфляционные ожидания по результатам опросов FRBNY SCE и Мичиганского университета. Эффект «разучивания» на распределение ответов показан в таблице 1.
Таблица 1. Точность результатов в хвостовой части распределения при различных стратегиях разучивания.

Примечание: Стратегии разучивания для смягчения коллапса моды. Градиентный подъем (GA) — это целенаправленный метод разучивания, при котором модель тонко настраивается для максимизации потерь на наборе данных официальной статистики ИПЦ, минимизируя при этом потери, или сохранение (RT), на наборе данных микроопросов. Оптимизация отрицательных предпочтений (NPO) рассматривает официальную статистику как отрицательные выборки, чтобы наказывать за их генерацию, в то время как сохраняемые (RT) выборки рассматриваются как положительные. Синтетические ответы на опрос об ожиданиях инфляции в процентах отклонений от моды и среднего значения (в скобках) в пределах интервалов точных совпадений, ± 1 и > 3 % отклонений. Показатель точности хвоста распределения измеряет близость к эталонному показателю дисперсии хвоста распределения ФРБН (> ± 3,0 = 44,38).
Базовый алгоритм Llama-3 (включающий разучивание на основе подсказок) обеспечивает точное совпадение в 92% ответов и нулевое количество ответов, отклоняющихся более чем на 3 процентных пункта. Таким образом, точность в хвостовой части распределения по сравнению с эталонным показателем SCE в 44% равна нулю. После применения генетического алгоритма точность совпадений снижается до 24%, а 43% ответов отклоняются более чем на ±3 процентных пункта; точность в хвостовой части достигает 97%. NPO показывает сопоставимые результаты — 37% и 43%, с точностью в хвостовой части 98%. Другими словами, оба метода разучивания, по-видимому, восстанавливают более реалистичное распределение.
Рисунок 2. Дисперсия моделей с низкой степенью обучения по сравнению с моделями, отказавшимися от обучения.

Примечание: На левой стороне графика представлены оценки плотности ядра инфляционных ожиданий 2020 года, полученные с помощью модели FRBNY SCE и двух вариантов Llama-3, обученных с использованием методов деобучения: градиентного подъема (GA) и оптимизации отрицательных предпочтений (NPO). Оба варианта деобучения охватывают диапазон, в котором FRBNY SCE размещает вероятностную массу, хотя они все еще остаются более концентрированными, чем эталонный показатель, полученный человеком, и слегка смещены в сторону более высоких средних значений. На правой стороне сравниваются оценки плотности ядра ожиданий, сгенерированных с помощью LLM (GPT-4o, Llama-3 и т. д.), с FRBNY SCE в 2020 году. Кривые LLM (левая ось) плотно сгруппированы вокруг узкой области, в то время как кривая FRBNY SCE остается гораздо шире. LLM могут соответствовать центральной тенденции, но не воспроизводят поперечное распределение микроданных опроса. Ширина полосы пропускания = 0,5 для всех оценок плотности ядра.
Плотность ядра (рисунок 2) показывает, что стандартные модели накапливают вероятностную массу в виде тонкого пика вблизи среднего значения. Необученные варианты распределяют массу по диапазону, который определили участники исследования SCE.
Моделирование рандомизированного контролируемого исследования
Более широкое распространение необходимо, но недостаточно для применения, которое послужило мотивацией для нашей статьи: воспроизведения рандомизированных контролируемых исследований (РКИ) с помощью синтетических версий. РКИ — дорогостоящие исследования. После завершения сбора данных исследователь не может вернуться к проверке теории, возникшей позже, или изменить вариант лечения. Синтетические агенты позволили бы нам сделать именно это, если бы их поведение соответствовало поведению реальных респондентов.
Для проверки этого предположения мы воспроизводим реальное рандомизированное контролируемое исследование, проведенное Койбионом, Городниченко и Вебером (2022). Респонденты случайным образом распределяются в одну из нескольких групп: контрольная группа не видит никакой информации, несколько экспериментальных групп получают различную экономическую информацию (фактический уровень инфляции в прошлом, целевой показатель ФРС в 2% и т. д.), а группе плацебо показывается контент, не связанный с инфляцией. Все респонденты сначала сообщают о своих априорных ожиданиях относительно инфляции, затем видят информацию, назначенную их группе, а затем сообщают о новых апостериорных ожиданиях. Разница между апостериорными и априорными ожиданиями представляет собой корректировку, внесенную респондентом.
Эффективность лечения определяется тем, насколько заметно отличаются внесенные в него изменения от изменений в контрольной группе, и соответствует ли направление сдвига ожиданиям экономической теории: снижение изменений в результате сообщений FOMC, повышение изменений в результате новостей о повышении цен на бензин. Проверка эффективности наших синтетических агентов заключается в том, совпадают ли изменения, внесенные ими, с изменениями, внесенными людьми.
Мы создали 30 000 синтетических персон с демографическими данными, полученными из переписи населения, и оценили средний эффект воздействия на каждую из трех моделей LLM, включая наши модели, которые мы «разучили». Первая проверка касается самих априорных данных: инфляционных ожиданий, которые агенты сообщают до того, как увидят какую-либо информацию. На рисунке 3 показаны среднее значение и стандартное отклонение этих априорных данных по демографическим подгруппам для эталонной модели человека и трех моделей LLM. Одна из моделей «разучивания» (Llama-GA) приближается к совокупной модели человека как по уровню, так и по дисперсии. В то время как один метод «разучивания» сработал (GA), другой не сработал (NPO). Таким образом, «разучивание» может быть не универсальным решением.
Рисунок 3. Модельные оценки воспринимаемой инфляции.

Примечание: На каждом графике представлены данные по демографическим подгруппам для эталонного человеческого алгоритма (Coibion et al., 2022), базовой модели Llama-3 и двух ее необученных вариантов (GA, NPO). Пунктирная линия обозначает значение «Все» для человеческого алгоритма. Левая сторона: Llama-3 и Llama-NPO практически не изменяются по демографическим характеристикам; Llama-GA в среднем соответствует уровню человеческого алгоритма, но не воспроизводит внутридемографическую структуру (например, предсказывает наивысшее среднее значение для «колледж или выше» и «Inc T3», в отличие от человеческой модели). Правая сторона: необученная модель GA восстанавливает большую часть дисперсии, сведенной базовой моделью.
Следующая проверка касается того, как обновляются априорные данные после обработки информации. В базовых моделях Llama-3 и Llama-NPO корректировки практически идентичны для всех вариантов обработки, и модели вообще не регистрируют эффекта обработки. Llama-GA — единственная модель, где варианты обработки различаются, и в ее самой большой подгруппе агентов (80% выборки) четыре варианта монетарной политики (прошлая инфляция, целевой показатель ФРС, прогноз FOMC, заявление FOMC) приводят к отрицательным и значимым корректировкам того же знака и приблизительной величины, что и у респондентов в исследовании Coibion et al.
Какой вывод можно сделать из этого?
Для исследователей и практиков, решающих, следует ли использовать LLM для проведения опросов, краткое изложение таково:
- LLM-ы не способны имитировать разные типы личности. Моделирование опросов сводится к тому, что один агент отвечает на один и тот же вопрос тысячи раз, каждый раз получая результат, очень близкий к среднему, иногда с точностью до четырех знаков после запятой.
- Целенаправленное разучивание позволяет восстановить большую часть разброса результатов и значительную долю эффектов лечения в рандомизированном контролируемом исследовании с участием людей. Однако методы разучивания достигают разного уровня успеха.
- Разница между средней точностью и точностью распределения достаточно велика, поэтому в любой работе, использующей данные синтетических респондентов, следует указывать вторую точность.
В будущих исследованиях следует рассматривать точность распределения и утечку данных как совместные ограничения, а не как второстепенные проблемы. Прогресс будет зависеть от методов, учитывающих как то, что знают модели, так и то, как оцениваются их результаты, при этом больше внимания следует уделять дисперсии, хвостам распределения и обновлению убеждений, а не только средним значениям.
Ссылки
Койбион, О., Ю. Городниченко и М. Вебер (2022) . Коммуникации в сфере денежно-кредитной политики и их влияние на инфляционные ожидания домохозяйств. Журнал политической экономии 130(6), 1537–1584.
Даллул, А., Пфайфер, М. (2026). Могут ли LLM имитировать обследования домохозяйств?: От репрезентативных агентов к распределению населения. Препринт SSRN. Ссылка на рабочий документ.
Зарифонавар, А. (2026) . Формирование инфляционных ожиданий с помощью больших языковых моделей. Журнал денежно-кредитной экономики 157, 103859
Данные для воспроизведения
Даллул, А., Пфайфер, М. (2026). Данные для воспроизведения: «Могут ли LLM имитировать обследования домохозяйств?: От репрезентативных агентов к распределению населения», https://doi.org/10.7910/DVN/CRIRVJ, Harvard Dataverse, V1.
Мориц Пфайфер. Все работы Морица Пфайфера.
Источник: towardsdatascience.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.