Темы магистерской программы — это не просто наблюдения.

24.05.2026 ideipro.ru

Предупреждение для практикующих специалистов о генерируемых переменных в причинно-следственном анализе

Делиться

Аналитик объединяет темы, извлеченные с помощью LLM из корпуса звонков, с таблицей клиентов. Клиенты, у которых нет стенограмм, получают значение NULL. Значение NULL заполняется нулем, или фразой «проблема не упоминалась», или незаметно опускается в качестве категории ссылки. В одной из строк предварительной обработки конвейер преобразует данные о клиентах, которые не обращались в службу поддержки, в данные о клиентах, которые не испытывали проблем с выставлением счетов.

Полученная регрессия выглядит безупречно. Коэффициент для переменной «неудовлетворенность выставлением счетов» значим, имеет знак, ожидаемый командой разработчиков, и достаточно велик, чтобы иметь значение. Его вставляют в документ с планом развития продукта. Никто не спрашивает, откуда взялась эта переменная.

Эта статья посвящена тому, что было незаметно добавлено вместе с этим значением заполнения, а также трем другим действиям, которые выглядят столь же безобидными в блокноте, но основаны на предположениях, которые анализ никогда не называет. Данная схема не ограничивается только обращениями в службу поддержки. Она применима к журналам чатов, сводкам заявок, отзывам о продуктах, стенограммам продаж и полям для свободных ответов в опросах — везде, где современный конвейер обработки данных преобразует текст в аккуратный столбец. Конвейер может представлять собой тонко настроенный классификатор, модель LLM с нулевым количеством примеров или модель встраивания с кластеризацией. Концептуальная проблема та же: столбец не является наблюдением атрибута клиента. Это результат генеративного процесса, применяемого к самостоятельно выбранному подмножеству поведения клиента.

Специалисты все чаще рассматривают подобные результаты как прямое отражение состояния клиента. Это не так. Это сгенерированные переменные: измерения, полученные в результате обработки данных, зависящие от того, совершил ли клиент какое-либо действие, оставившее текстовый след, и от того, сохранился ли этот след в модели извлечения. Каждый шаг этого условия имеет последствия для значения переменной в последующей причинно-следственной модели, и большинство этих последствий невидимы в объединенной таблице.

Четыре вещи, как правило, идут не так, и ход NULL делает все четыре видимыми одновременно.

Выборка. Тема существует для клиента, потому что этот клиент звонил, жаловался, оставлял отзыв или отвечал. Что бы ни послужило причиной этого действия, это, вероятно, также коррелирует с воздействием, результатом или и тем и другим. Заполнение NULL сводит категорию «текст не был сгенерирован» к эталонной, и анализ больше не оценивает эффект для всей клиентской базы. Он оценивает эффект для переопределенной популяции, и это переопределение произошло на этапе предварительной обработки.

Время. Был ли звонок совершен до лечения, во время него или после? Текст, отправленный до лечения, является потенциальным фактором, искажающим результаты. Текст, отправленный после лечения, является потенциальным медиатором или результатом, и использование его в качестве контрольного образца до лечения является классическим источником смещения результатов после лечения. Объединенная таблица редко позволяет это увидеть.

Измерение. Метка «неудовлетворенность выставлением счетов» не означает неудовлетворенность выставлением счетов. Это то, что конвейер обработки данных определил как язык, соответствующий неудовлетворенности выставлением счетов. Точность классификатора конечна, и точность может различаться в зависимости от варианта обработки, поскольку изменение манеры общения клиентов также меняет то, как модель их интерпретирует. Шум метки не ортогонален изучаемому объекту.

Роль. Выступает ли тема в качестве искажающего фактора, опосредующего фактора, воздействия, результата или описательной характеристики? Это определяет направленный ациклический граф (DAG), а не название столбца. Переменная, методологически обоснованная в одной роли, становится источником смещения в другой.

Эти четыре проблемы не являются независимыми. Они взаимодействуют. Тема, обнаруженная с помощью LLM, наследует следы выбора от канала, через который она поступила, следы времени от момента генерации текста и следы измерения от конвейера, который ее извлек. Последующая регрессия видит столбец из нулей и единиц.

Проблема не в том, что конвейер обработки данных выдал некорректную метку. Проблема в том, что метка унаследовала процесс генерации данных, который последующий анализ никогда не моделировал.

В оставшейся части статьи мы рассмотрим, что это означает на практике, где стандартный рабочий процесс дает сбой и как выглядит минимальная диагностическая процедура. Мы начнем с вопроса о роли и времени, потому что именно в этом вопросе аналитики допускают первую ошибку.

Вопросы роли и сроков — это одно и то же.

Первый шаг, который делает аналитик, работая с темой, полученной из стенограммы, неявно: он рассматривает её как ковариату. Темы помещаются в правую часть регрессионной модели. Воздействие — это интересующая нас переменная. Результат находится слева. Тема «контролируется».

Фраза «с учетом» выполняет работу, которую аналитик не проверил. Учет переменной означает исключение той части взаимосвязи между лечением и результатом, которая проходит через эту переменную. Поможет ли эта корректировка или навредит, полностью зависит от положения переменной в причинно-следственной сети, а это положение определяется временем.

Предварительный текст , сгенерированный до назначения лечения, может играть роль искажающего фактора. Если клиент звонил по поводу выставления счетов в январе, а предложение по удержанию клиента было отправлено в марте, звонок отражает нечто о состоянии клиента, что может повлиять как на то, кто получил предложение, так и на то, кто отказался от услуг. Учет тематики здесь может уменьшить смещение, вызванное пропущенными переменными, при условии, что тема действительно отражает соответствующий конструкт, и учтены вопросы отбора, описанные в следующем разделе.

Текст , генерируемый в процессе самого воздействия, вообще не является ковариатой. Если воздействие заключается в звонке от агента по удержанию клиентов, и тема звонка взята из этого же звонка, то тема является частью воздействия. Учет этого фактора не корректирует влияние искажающих факторов; он устраняет часть эффекта, который аналитик пытается измерить.

Текст , сгенерированный после проведения лечения, представляет собой наиболее опасную категорию, поскольку именно его аналитик, работающий с плоской таблицей без временной привязки, чаще всего ошибочно классифицирует как искажающий фактор. Клиент, получивший предложение о сохранении в марте и позвонивший с жалобой в апреле, предоставил стенограмму, которая отражает, по крайней мере частично, его реакцию на лечение. Обусловливание на основе темы, извлеченной из этого звонка, является обусловливанием на основе переменной, сгенерированной после лечения. Это может блокировать пути опосредования, вызывать коллизионные ассоциации или иным образом смещать оцениваемую величину от эффекта лечения, который, по мнению аналитика, он оценивает.

Наглядный пример это наглядно демонстрирует. Рассмотрим синтетическую, но реалистичную с точки зрения бизнеса ситуацию. Клиенты получают предложение по удержанию на основе модели, которая учитывает ценовую чувствительность. И назначение предложения, и отток клиентов зависят от этой базовой ценовой чувствительности, которую аналитик не наблюдает. Клиенты, более чувствительные к цене, с большей вероятностью получат предложение (поскольку модель таргетинга выбрала их) и с большей вероятностью откажутся от услуг независимо от этого. Они также с большей вероятностью позвонят в службу поддержки и выразят шок по поводу счета. Тема «шок по поводу счета» возникает в результате этих звонков после получения предложения.

Наивный аналитик добавляет эту тему в таблицу клиентов, заполняет поле NULL нулем и проводит логистическую регрессию, сравнивая отток клиентов с неожиданными расходами:

 import numpy as np import pandas as pd import statsmodels.api as sm rng = np.random.default_rng(7) n = 20000 price_sens = rng.normal(0, 1, n) offer = rng.binomial(1, 1 / (1 + np.exp(-(0.8 * price_sens)))) churn = rng.binomial(1, 1 / (1 + np.exp(-(-1.0 + 1.2 * price_sens - 0.5 * offer)))) called = rng.binomial(1, 1 / (1 + np.exp(-(-1.5 + 0.7 * price_sens + 0.9 * churn)))) theme_prob = 1 / (1 + np.exp(-(-0.5 + 0.8 * price_sens))) bill_shock = np.where(called == 1, rng.binomial(1, theme_prob), 0) df = pd.DataFrame({"churn": churn, "offer": offer, "bill_shock": bill_shock}) X = sm.add_constant(df[["offer", "bill_shock"]]) naive = sm.Logit(df["churn"], X).fit(disp=0) print(naive.params)

Реальный эффект предложения на отток клиентов составляет -0,50 в логарифмическом масштабе вероятности. Предполагается, что предложение снижает отток, и в процессе генерации данных это действительно так. Вот результаты четырех вариантов расчета:

Рисунок 1. Одни и те же данные, четыре варианта спецификации, четыре разных ответа.
Изображение предоставлено автором.

Спецификация	Коэффициент предложения	Что в нём написано
Наивный (с bill_shock)	+0.12	Предложение кажется вредным.
Отменено (нет bill_shock)	+0,24	Предложение по-прежнему выглядит вредным.
Oracle (с параметром price_sens)	−0,55	Предложение снижает отток клиентов.
Истинный эффект (DGP)	−0,50	Предложение снижает отток клиентов.

Поскольку распределение предложений уже осложнено ценовой чувствительностью, удаление неэффективного контрольного фактора не делает дизайн обоснованным. Это лишь устраняет еще один источник искажений. Два наблюдения из этой таблицы.

Во-первых, наивная спецификация неверна по направлению. Добавление фактора, влияющего на отток клиентов, к модели, которая уже была предвзятой, меняет знак коэффициента предложения. Команда разработчиков, читающая эти данные, придет к выводу, что предложения по удержанию клиентов вызывают отток. И они ошибутся.

Во-вторых, исключение переменной, отражающей шок в счетах, не исправляет анализ. Исключенная спецификация также положительна, и только спецификация «оракула», которая напрямую учитывает ненаблюдаемый фактор, восстанавливает истинный эффект. В реальном анализе у аналитика нет этого столбца. В этом и суть. Удаление неэффективного контроля необходимо, но недостаточно, и тема пост-обработки, извлеченная из самостоятельно отобранной подгруппы звонящих, не заменяет идентификацию.

Стоит подробно рассмотреть механизм изменения знака в простой спецификации. Отток клиентов влияет на вероятность звонка, поскольку клиенты, которые уходят, с большей вероятностью позвонят. Эффект «шока от счета» наблюдается только у клиентов, которые звонили, поскольку для этого требуется наличие стенограммы. Таким образом, обусловливание эффектом «шока от счета» обусловливает последующее следствие оттока. Среди клиентов с эффектом «шока от счета», равным единице, взаимосвязь между чувствительностью к предложению и цене искажена, поскольку обе переменные теперь помогают объяснить, почему клиент оказался отмеченным как проблемный. Коэффициент предложения поглощает эту вызванную ассоциацию.

Методологический аспект обобщается. Переменная, полученная из стенограммы, занимает определенное место в причинно-следственном графе, определяемое временем создания текста относительно воздействия, автором текста и процессом, в результате которого была получена метка. Роль и время — это один и тот же вопрос, рассматриваемый с разных точек зрения. Эти переменные имеют структурный след, который аналитик должен отслеживать, и отслеживание происходит не в объединенной таблице.

Вопрос выбора

В большинстве отраслевых анализов, использующих стенограммы обращений в службу поддержки, определенная совокупность неявно переопределяется с «клиентов» на «клиентов, которые создали тексты обращений в службу поддержки». Оцениваемая величина меняется еще до начала регрессионного анализа.

Именно эта часть, как правило, имеет наибольшее значение в рабочих процессах специалистов, и именно здесь стандартный рабочий процесс наиболее уязвим.

Текст существует потому, что клиент что-то сделал: позвонил, оставил отзыв, пожаловался, ответил. Это действие — поведение, а не показатель. На него влияют характеристики клиента, доступный канал связи, срочность проблемы и часто само обращение. Ничто из этого не является случайным. Ничто, как правило, не является ортогональным результату.

Решение об обработке значений NULL — вот где это начинает работать. Существует три распространенных варианта, и каждый из них предполагает определенные допущения.

Заполнение NULL значением ноль или «проблема не упоминалась» предполагает, что отсутствие генерируемого текста указывает на отсутствие базовой конструкции. Аналитик утверждает, что клиенты, которые не звонили, не сталкивались с тем, что обнаруживает тема оформления. Для большинства тем, которые заслуживают внимания, это само по себе неправдоподобно. Клиенты, которые не звонили, могли испытывать проблемы с оплатой и решить их, отменив подписку, перейдя к конкуренту, пожаловавшись в социальных сетях или просто сдавшись. Заполнение нулём превращает всё это в «отсутствие проблем».

Удаление строк со значениями NULL и ограничение анализа только подгруппой звонивших, по крайней мере, позволяет объективно оценить общую популяцию, но при этом меняет оцениваемую величину. Эффект от воздействия предложения на клиентов, которые звонили, не совпадает с эффектом от воздействия на всех остальных клиентов, и разница между ними часто является сутью бизнес-вопроса. Эффект предложения по удержанию клиентов на тех, кто склонен к оттоку, является полезным показателем. Однако это не тот показатель, который, как утверждают большинство анализов, они пытаются оценить.

Рассмотрение наличия текстовых сообщений как механизма пропуска информации и применение взвешивания по обратной вероятности на основе модели того, кто звонит, с методологической точки зрения является правильным подходом. Однако загвоздка заключается в самой модели склонности. Моделирование того, кто отправляет текстовые сообщения, требует описания того, что побуждает к звонкам, и эта модель зависит от демографических данных, стажа работы, предыдущих проблем, опыта взаимодействия и неизмеренной фрустрации, которая, собственно, и должна была измеряться в рамках данной темы. Подход IPW основан на принципах, и он редко бывает настолько принципиальным, как кажется.

Суть в том, что выделение текста — это поведение, взаимодействующее с воздействием. Предложение по удержанию клиентов может изменить частоту звонков. Изменение цен может изменить частоту жалоб. Запуск новой функции может изменить характер проблем, которые озвучивают клиенты. Любой из этих факторов делает сам механизм выделения зависимым от воздействия, а это значит, что даже идеально выделенная и точно рассчитанная тема измеряется на популяции, состав которой меняется в зависимости от воздействия. Стандартные поправки на основе наблюдений предполагают стабильность механизма выделения. Когда воздействие изменяет выделение, поправки остаются неизменными.

Всё это вовсе не означает, что переменные, полученные из стенограмм, бесполезны. Это означает, что аналитик обязан четко указать читателю, для какой популяции проводится оценка эффекта, какой механизм привел к созданию текста и какие предположения были сделаны относительно всех, чей текст отсутствует.

Вопрос измерения

Старые результаты обработки естественного языка выглядели зашумленными. Веса TF-IDF, разреженные подсчеты ключевых слов, векторные представления тем LDA: ничто из этого не отражало того, что чувствовал клиент. Специалисты рефлексивно им не доверяли, и этот рефлекс спас множество неудачных анализов.

Результаты анализа латентных конструктов не выглядят зашумленными. Они выглядят как скрытые конструкты. Метка типа «разочарование из-за выставления счетов», «подрыв доверия» или «тревога по поводу продления договора» читается как описание психического состояния клиента. Метка четкая, категории семантически согласованы, а причины сбоев не бросаются в глаза в столбце. Проблема убеждения реальна еще до того, как начинается проблема статистики.

Статистическая проблема более знакома. Тема LLM представляет собой зашумленную аппроксимацию базовой конструкции. Метка «шок от счета» — это не шок от счета. Это то, что модель определила как язык, соответствующий шоку от счета, в обработанных ею стенограммах. Точность классификатора конечна даже для чистых задач, и точность на реальной популяции, а не на отложенном оценочном наборе, часто неизвестна. Подстановка зашумленной аппроксимации в регрессию вместо истинной переменной ослабляет коэффициенты до нуля в некоторых случаях и искажает их в других, в зависимости от того, является ли шум дифференциальным.

Реальный ущерб наносит дифференциальная ошибка измерения. Если воздействие меняет манеру общения клиентов, а большинство эффективных воздействий именно это и делают, то точность классификатора в определении тематики может различаться между экспериментальной и контрольной группами. Предложение по удержанию клиентов, смягчающее их настроения, может снизить частоту выявления моделью фраз, указывающих на «шок от счета», без уменьшения лежащего в основе разочарования. Изменение ценообразования, меняющее формулировку жалоб клиентов, может сильнее повлиять на точность классификатора в одной группе, чем в другой. Шум в метках больше не имеет нулевого значения. Он коррелирует с воздействием, и обусловливание шумом в метках смещает оценку эффекта воздействия в направлении, которое аналитик не может легко определить.

Существует литература, посвященная коррекции ошибок измерения, вызванных классификатором. Эгами и его коллеги разработали рабочий процесс разделения выборки для причинно-следственного анализа с использованием обнаруженных в тексте показателей в качестве методов лечения или результатов в статье «Как делать причинно-следственные выводы с помощью текста». Мозер и его коллеги применяют сопоставление с использованием текста к электронным медицинским картам и показывают, как текстовые ковариаты изменяют оцененные эффекты в реальном медицинском исследовании в статье «Использование текстовых данных для причинно-следственного анализа с помощью электронных медицинских карт». В более широком контексте Кит, Дженсен и О'Коннор рассматривают, как текст использовался для устранения искажающих факторов в различных приложениях в статье «Текст и причинно-следственный анализ: обзор использования текста для устранения искажающих факторов из причинно-следственных оценок». Эти методы существуют, и их стоит использовать, когда анализ имеет значение. Они также требуют от аналитика понимания того, что метка представляет собой измерение с ошибкой, что является шагом, который большинство рабочих процессов пропускают.

Ошибка специалиста заключается в том, что он не использует метку. Ошибка специалиста заключается в том, что он рассматривает метку, полученную из генеративной модели, как столбец, считанный с датчика.

Контрольный список для практикующего специалиста

Причинно-следственный анализ, использующий сгенерированную переменную, полученную из стенограмм, всё ещё может быть обоснованным. Для этого ему нужно ответить на пять вопросов, прежде чем начнётся регрессионный анализ.

1. Какую роль, по моему мнению, играет эта переменная?

Фактор, искажающий результат, опосредующий фактор, лечение, исход или описательная характеристика. Решение принимает направленный ациклический граф (DAG). Название столбца — нет.

2. Когда был создан текст относительно проведенного лечения?

Предварительное, одновременное или последующее воздействие. Если аналитик не может ответить на этот вопрос на основе данных, переменная не включается в модель в качестве фактора, влияющего на результат.

3. Какой механизм отбора создал этот текст, и что я могу предположить о тех, чей текст не существует?

Заполнение нулями, отбрасывание, IPW: каждое из этих утверждений является предположением. Выберите одно и сформулируйте его.

4. Каким образом была составлена этикетка, и может ли ее надежность различаться в зависимости от группы лечения?

Если лечение правдоподобно меняет то, как клиенты выражают базовую концепцию, точность классификатора не будет постоянной на протяжении всего сравнения, проводимого в ходе анализа.

5. Как выглядит результат стресс-теста?

Перестройте модель, исключив переменную, полученную из стенограммы. Если коэффициент заголовка нестабилен, результат недостаточно устойчив, чтобы самостоятельно утверждать о причинно-следственной связи.

Эти пять вопросов не являются решением. Они носят диагностический характер. Аналитик, способный на них ответить, не гарантирует выявления эффекта. Аналитик, не способный на них ответить, занимается описательной работой с использованием причинно-следственных формулировок.

Общая закономерность существует дольше, чем модели обработки естественного языка (LLM). Сгенерированные переменные представляют собой выходные данные конвейера, которые выглядят как наблюдения, но на самом деле являются выходными данными модели, обусловленными отбором. Они отображаются в показателях мошенничества, метриках релевантности рекомендательных систем, индексах настроения, показателях склонности, повторно используемых в качестве ковариат, и любых оценках скрытых признаков, полученных с помощью модели, работающей выше по потоку, и используемых в последующем анализе. Модели обработки естественного языка (LLM) не изобрели эту ошибку. Они сделали ее доступной в масштабе и с такой степенью свободы, которых никогда не достигали более старые модели обработки естественного языка. Метки выглядят как скрытые конструкции, столбцы — как измерения, а рабочий процесс — как причинно-следственный вывод.

Предположения никуда не исчезли. Они просто переместились вверх по течению.

Ведущий специалист по анализу данных, специализирующийся на причинно-следственном анализе, экспериментах и теории принятия решений. Я пишу о превращении неоднозначных бизнес-вопросов в готовые к принятию решения аналитические данные.

Больше подобных материалов на LinkedIn 👇

🔗 LinkedIn

Уильям Гиенг. Все работы Уильяма Гиенга.

Источник: towardsdatascience.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Темы магистерской программы — это не просто наблюдения.

Четыре вещи, как правило, идут не так, и ход NULL делает все четыре видимыми одновременно.

Вопросы роли и сроков — это одно и то же.

Вопрос выбора

Вопрос измерения

Контрольный список для практикующего специалиста

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Четыре вещи, как правило, идут не так, и ход NULL делает все четыре видимыми одновременно.

Вопросы роли и сроков — это одно и то же.

Вопрос выбора

Вопрос измерения

Контрольный список для практикующего специалиста

Похожие записи

Похожие записи

Google Pics — это новое приложение, которое пытается исправить проблемы, связанные с редактированием изображений с помощью искусственного интеллекта.

В древних метеоритах нашли ключи к разгадке происхождения жизни

Сон посреди тренировки: девушка проспала в спортзале почти три часа

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI