Image

Анализ изменения продаж в розничной торговле с учетом причинно-следственной связи: пример Carrefour

Применение причинно-следственной связи для измерения влияния отсутствия товара на розничные продажи в Carrefour

Делиться

64a6fb62cf22740c84351e64fd5aee42

Раскрытие информации: Я работаю в Carrefour. Выраженные в этой статье взгляды являются моими собственными. Представленные данные и примеры публикуются с разрешения моего работодателя и не содержат никакой конфиденциальной информации.

Введение

Ассортимент магазина представляет собой полный и разнообразный ассортимент товаров, предлагаемых покупателям. Он может меняться в зависимости от различных факторов, таких как: экономическая ситуация, потребительские тенденции, рентабельность, вопросы качества или соответствия требованиям, обновление некоторых товарных групп, уровень запасов, сезонные изменения и т. д.

Когда товар исчезает с полки магазина, часть продаж может перераспределиться в пользу других товаров. Для крупного продуктового ритейлера, такого как Carrefour, крайне важно точно оценить это изменение продаж, чтобы управлять риском потерь из-за отсутствия товара и приблизительно оценить размер потерь.

Этот показатель служит индикатором последствий отсутствия товара. Кроме того, он постепенно формирует ценную историю оценок влияния изменения продаж.

Однако оценить изменения продаж сложно. Поведение покупателей, обусловленное труднопредсказуемыми эмоциональными факторами, сезонность определённых товаров или появление новых продуктов — всё это может влиять на изменения продаж. Кроме того, многие товары одновременно становятся недоступными во всех магазинах, что делает невозможным формирование контрольной группы.

Синтетический контрольный подход Causal Impact, разработанный командой Google, соответствует особенностям нашей аналитической платформы. Он позволяет нам изолировать влияние недоступности продукта на продажи от влияющих факторов и подходит как для квазиэкспериментальных, так и для наблюдательных исследований. Основанный на байесовских структурных моделях временных рядов, Causal Impact выполняет контрфактуальный анализ, рассчитывая влияние на продажи как разницу между продажами, наблюдаемыми после того, как продукт стал недоступен, и, посредством синтетического контроля, продажами, которые наблюдались бы, если бы продукт оставался доступным.

В этой статье представлен наш подход причинно-следственной связи для оценки эффекта изменения продаж вследствие недоступности продукта, а также эвристика для выбора временных рядов контрольной группы.

В целях конфиденциальности количественные значения на графиках были отредактированы. Обратите внимание, что каждый блок по оси X соответствует одному месяцу, а по оси Y — переменной величине, которая может быть довольно большой.

I) Определение варианта использования

Недоступность продукта возникает в двух основных формах:

  • Полная недоступность: продукт больше не представлен в национальном ассортименте, что затронуло все магазины.
  • Частичная недоступность: товар больше не доступен в некоторых магазинах, но не во всех. В других магазинах он по-прежнему доступен.

Мы считаем, что достоверная оценка влияния изменения продаж должна точно учитывать как потерянные продажи, так и долю продаж, перенесённых на другие продукты. Однако точное определение этих величин невозможно, что усложняет задачу.

В нашем исследовании анализируются случаи полной недоступности товара, поскольку именно эти случаи оказывают наибольшее влияние на продажи.

Также обратите внимание, что причинно-следственный вывод не является прогностической основой для будущих событий: он выявляет причинно-следственные связи в прошлом, а не прогнозирует будущие события.

II) Почему мы выбрали модель причинно-следственной связи Google?

Причинно-следственные подходы направлены на понимание причинно-следственных связей между переменными, объясняя, как одна из них влияет на другую, изолируя эффект, который мы пытаемся проанализировать, от всех других существующих эффектов.

Среди этих инструментов, Causal Impact — удобная в использовании библиотека, работающая в рамках полностью байесовского подхода, что позволяет интегрировать априорную информацию, обеспечивая при этом определённые интервалы достоверности результатов. Её прогнозы представляют собой ожидаемые результаты, если бы вмешательство не произошло, выраженные в виде функций распределения, а не отдельных значений.

Метод Causal Impact формирует прогнозы, комбинируя эндогенные компоненты, такие как сезонность и локальный уровень, с выбранными пользователем внешними временными рядами (ковариатами). Эти ковариаты не должны быть затронуты вмешательством и должны отражать тенденции или факторы, которые могут повлиять на основной временной ряд. Мы обсудим выбор ковариатов позже.

a0ab4ebf006c4411d4379100a5437591

Рис. 1: Упрощённый пример причинно-следственной связи в действии. Верхний график показывает два временных ряда: оранжевая линия представляет фактические наблюдаемые данные, а синяя — прогноз модели, созданный с использованием ковариатов и эндогенных компонентов. Каждый блок соответствует месяцу. Этот прогноз оценивает, что произошло бы, если бы интересующее нас событие (отмечено вертикальной пунктирной линией) не произошло. Синяя область указывает на неопределённость прогноза. Второй график отображает поточечную разницу между прогнозом и наблюдаемыми данными, а нижний график — кумулятивное воздействие.

III) Управление выбросами и аномалиями в данных

Чтобы обеспечить точность анализа, мы устранили аномалии в данных о продажах, выполнив два ключевых шага:

  • Из анализа мы исключили временные ряды с отрицательными продажами или большим количеством нулевых продаж.
  • Для временных рядов с периодическими нулевыми продажами мы заменили эти значения средним значением продаж за предыдущую и последующую недели.

IV) Разработка модели

Выбор ковариатов существенно влияет на точность контрфактуального прогноза. Эти временные ряды должны отражать тенденции или внешние факторы, которые могут повлиять на целевой временной ряд, не будучи подверженными влиянию вмешательства.

Кроме того, крайне важно учитывать величину предполагаемого эффекта изменения продаж относительно изучаемого временного ряда: если ожидается, что вмешательство повлияет на целевой ряд всего на несколько процентов, этот ряд может быть неподходящим, поскольку небольшие эффекты трудно отделить от случайного шума (тем более, что разработчики библиотеки показали, что эффекты менее 1% трудно доказать как связанные с вмешательством). Поэтому мы анализировали изменение продаж только тогда, когда теоретически максимальный коэффициент изменения продаж превышал 5% от продаж в его подсемействе. Мы рассчитывали это как S/(1-S), где S представляет собой процент оборота, который продукт генерировал в своем подсемействе до того, как стал недоступным.

Учитывая эти предварительные соображения, мы разработали нашу модель причинно-следственной связи следующим образом:

Цель

В качестве целевого временного ряда мы выбрали сумму продаж по подсемейству товаров, за исключением товаров, которые стали недоступны.

Ковариаты

Сначала мы исключили следующие типы временных рядов:

  • Продукция из того же подсемейства, что и снятый с производства продукт, чтобы исключить любое влияние его недоступности.
  • Продукты из других семейств, нежели снятый с производства продукт, поскольку сопутствующие факторы должны оставаться значимыми для бизнеса.
  • Временные ряды, которые показали корреляцию, но не коинтеграцию с целевым рядом, чтобы избежать ложных связей.

Используя эти фильтры, мы отобрали 60 ковариатов:

  • Были выбраны 20 ковариатов на основе их наибольшей коинтеграции с целевым рядом в течение года до вмешательства.
  • Из 200 лучших коинтегрированных рядов было отобрано 40 дополнительных ковариатов на основе их наиболее сильной корреляции с целевым рядом в течение года до вмешательства.

Обратите внимание, что эти числа (20, 40 и 60) являются практическими правилами, полученными в результате подгонки наших предыдущих моделей.

Этот эмпирический подход объединяет временные ряды, отражающие как долгосрочные тенденции (через коинтеграцию), так и краткосрочные вариации (через корреляцию). Мы намеренно выбрали большое количество ковариатов, поскольку в модели Causal Impact используется метод «пика и сляба», который автоматически снижает влияние менее значимых рядов, присваивая им близкие к нулю коэффициенты регрессии, при этом придавая больший вес важным.

V) Проверка модели

Для валидации нашей стратегии выбора ковариатов мы активно использовали подход, использованный разработчиками модели причинно-следственной связи. Мы провели исследование частичной недоступности продукта следующим образом:

  1. Мы рассмотрели случаи, когда продукты становились частично недоступными, и провели первоначальный традиционный статистический анализ с использованием метода разности разностей.
  2. Мы применили метод причинно-следственной связи, используя в качестве ковариатов контрольную выборку, состоящую из продаж подсемейства продукта (исключая недоступный продукт) в магазинах, где он оставался в наличии. Эти ковариаты обеспечили наилучшее доступное контрфактическое обоснование, поскольку эти магазины не были затронуты вмешательством.
  3. Наконец, мы применили метод причинно-следственной связи без контрольной популяции, используя вместо этого наш процесс отбора, основанный на коинтеграции и корреляции, как описано в разделе «Разработка модели».

Согласованные оценки в нескольких отчетах (охватывающих различные продукты, количества и категории) продемонстрировали бы, что мы можем надежно применять этот подход в более широком масштабе.

Кроме того, мы разработали две метрики для оценки качества синтетического контроля: меру приспособленности и меру прогностической способности.

  • Мера приспособленности, оцениваемая по шкале от 0 до 1, позволяет оценить, насколько хорошо синтетический контроль моделирует цель в период до вмешательства.
  • Мера прогностической способности — это форма бэк-тестирования, которая оценивает качество синтетического контроля во время имитированного ложного вмешательства в прошлом.

Практический пример проверки

Чтобы подтвердить описанный выше процесс на практическом примере, мы проанализировали случай, когда упаковка йогурта стала недоступна в некоторых магазинах. Мы сформировали экспериментальную и контрольную группы, сопоставив каждый магазин, где продукт стал недоступен, с аналогичным магазином, где он всё ещё был, основываясь на таких критериях, как динамика продаж, характеристики покупателей и географическое положение.

Теоретически максимальный коэффициент изменения продаж для этого продукта составил 9,5%, и наши предыдущие анализы показали очень высокие коэффициенты изменения продаж в группе молочных продуктов. Следовательно, мы ожидали получить оценку, близкую к теоретическому максимальному коэффициенту.

Следуя нашему трехэтапному методу проверки, мы получили следующие результаты:

  1. Анализ разницы разностей оценил причинно-следственную связь в 8,7% с вероятностью 98,7%.
  2. Как показано на рисунке 2 (ниже), анализ причинно-следственной связи с использованием контрольной популяции оценил причинно-следственную связь в 9,0% с доверительным интервалом [3,7%, 14,4%] и вероятностью 99,9%. Мы также видим, что, хотя модель эффективно отслеживает колебания временного ряда, она демонстрирует некоторые незначительные отклонения.
47118aeecace42ecb0ffdccc232c232b

Рис. 2: Оценка причинно-следственной связи для бренда молочного продукта после его недоступности с использованием контрольной популяции для построения синтетического контроля.

Кроме того, при использовании ковариатов, отобранных на основе коинтеграции и корреляции, вместо контрольной популяции, анализ причинно-следственной связи оценил причинно-следственную связь в 8,5% с доверительным интервалом [2,4%, 15,1%] и вероятностью 99,9%, как показано на рисунке 3 (ниже). Модель также эффективно отслеживает колебания временного ряда, хотя и демонстрирует некоторые незначительные отклонения.

ec6d2ce952ef45fdb309c1f9b8dc4093

Рис. 3: Оценка причинно-следственной связи для бренда молочного продукта после его недоступности с использованием прокси-данных (только данные из магазинов в исследуемой популяции для формирования синтетического контроля).

Ниже приводится сводка оценок, полученных с помощью трех различных методов анализа:

Анализ Оценка эффекта Вероятность причинно-следственной связи
Разница в различиях 8,7% 98,7% (значительно)
Причинно-следственное воздействие на контрольную популяцию 9,0% ДИ: [3,7%, 14,4%] 99,9% (значительно)
Причинно-следственное воздействие без информации о контрольной популяции 8,5% ДИ: [2,4, 15,1%] 99,1% (значительно)

В нем показано, что оценки остаются последовательными по величине, независимо от того, используется ли контрольная популяция или нет, что подтверждает наш процесс отбора ковариатов в случае отсутствия контрольной популяции.

VI) Полная недоступность: пакет риса больше не доступен

Мы рассмотрели общенациональный случай, когда упаковка риса бренда перестала быть в наличии. Мы ограничили анализ несколькими месяцами после исчезновения продукта, чтобы избежать учета не связанных эффектов, которые могли бы проявиться в течение более длительного периода. Теоретически максимальный коэффициент изменения продаж для этого продукта составил 31,2%. Мы применили методологию выбора ковариатов, описанную ранее, для оценки потенциального эффекта изменения продаж.

766d4b13070864bd09f03f834d2191c5

Рис. 4: Оценка причинно-следственной связи после того, как марка упаковки риса стала недоступна, с использованием прокси (только данные из магазинов в группе, участвующей в исследовании, для формирования синтетического контроля).

Как показано на рисунке 4, синтетический контроль очень хорошо моделирует целевой показатель за период до вмешательства. Прогноз точно отражает сезонные тенденции после вмешательства. Интервал достоверности вокруг оценки очень узкий.

Мы получили статистически значимую оценку роста товарооборота на 22% в связи с отсутствием товара в последующие месяцы с вероятностью более 99,9%. Это количество составляет примерно 70% от общего объема продаж риса до того, как товар стал недоступен, что означает, что 30% продаж риса не изменились.

VII) Рекомендации по использованию и отчет об опыте использования

Causal Impact — это надёжный и удобный инструмент для построения причинно-следственных связей. Однако, потратив значительное время на разработку модели и повышение её точности, мы столкнулись с трудностями при её настройке для получения решения, пригодного для промышленного применения.

  • Первое, что мы хотим подчеркнуть, — это важность принципа «мусор на входе — мусор на выходе», который особенно актуален при использовании модели причинно-следственного влияния. Независимо от используемых ковариатов, модель причинно-следственного влияния всегда даёт результат, иногда с очень высокой вероятностью, даже в тех случаях, когда результаты нереалистичны или невозможны.
  • Временные ряды, выбранные исключительно на основе критерия коинтеграции, иногда затмевают другие по важности характеристик модели, что может существенно снизить точность оценки, если корректировка не контролируется должным образом.
  • Выбор 20 рядов для коинтеграции и 40 для корреляции — это эмпирическое правило. Хотя оно эффективно в большинстве рассмотренных нами случаев, его следует уточнить.

Заключение

В этой статье мы предложили причинно-следственный подход к оценке эффекта изменения продаж при недоступности товара, используя метод причинно-следственной связи. Мы изложили методологию выбора анализируемых товаров и ковариатов.

Хотя этот подход в большинстве случаев функционален и надёжен, у него есть ограничения и области для улучшения. Некоторые из них структурные, другие требуют больше времени на корректировку модели.

  • Мы протестировали методологию на различных продуктах и получили многообещающие результаты, но она не является исчерпывающей. Некоторые очень сезонные продукты или продукты, по которым мало исторических данных, представляют собой проблему. Кроме того, товары, недоступные лишь в некоторых магазинах, встречаются редко, что ограничивает нашу возможность валидировать метод на большом количестве разнообразных случаев.
  • Другим структурным ограничением модели является необходимость проведения постфактумного анализа: инструмент не позволяет прогнозировать влияние изменения продаж до того, как продукт станет недоступным. Такая возможность была бы весьма полезна бизнес-командам. Ведётся работа по прогнозированию изменения продаж с использованием байесовского структурного прогнозирования временных рядов.
  • Анализ влияния изменения объёма продаж не учитывает влияние на маржу: товар, который стал недоступным, может иметь более высокую маржу на единицу товара, чем товары, на которые он перешёл. В таком случае коммерческие выводы могут отличаться, но анализ на уровне подсемейства исключает такой уровень детализации.
  • Наконец, мы могли бы рассмотреть альтернативные синтетические элементы управления, такие как расширенный SC, надежный SC, штрафной SC или даже другие причинно-следственные подходы, такие как двухсторонняя модель с фиксированным эффектом.

Источник: towardsdatascience.com

✅ Найденные теги: Анализ, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.
Спутник исследует черную дыру в космосе, испускающий световой луч.
Пикачу использует электрический разряд на фоне неба.
Черный углеродное волокно с текстурой плетения, отражающий свет.
Круглый экран с изображением замка и горы, рядом электронная плата.
Код на экране компьютера, программирование, интерфейс разработчика.
Статистика использования видеокарт NVIDIA RTX, показывающая изменения за октябрь-февраль.
Макросъемка клетки под микроскопом, текстура и форма на голубом фоне.
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых