Как избежать переоценки эффективности, полезности и применимости моделей машинного обучения в реальных условиях из-за скрытой утечки данных
Делиться

Авторы : Аугусто Серкуа, Марко Летта, Габриэле Пинто.
Машинное обучение (МО) заняло центральное место в экономике, социальных науках и принятии бизнес-решений. В государственном секторе МО всё чаще используется для решения так называемых задач прогнозирования политики: ситуаций, когда политики стремятся выявить субъекты, наиболее подверженные риску негативного исхода, и принять упреждающие меры, например, для определения целевых государственных субсидий, прогнозирования локальных рецессий или прогнозирования миграционных схем. В частном секторе аналогичные задачи прогнозирования возникают, когда компании стремятся спрогнозировать отток клиентов или оптимизировать оценку кредитного риска. В обеих областях более точные прогнозы приводят к более эффективному распределению ресурсов и более эффективным мерам вмешательства.
Для достижения этих целей алгоритмы МО все чаще применяются к панельным данным, характеризующимся повторными наблюдениями одних и тех же единиц в течение нескольких периодов времени. Однако модели МО изначально не были разработаны для использования с панельными данными, которые имеют отличительные поперечные и продольные измерения. При применении МО к панельным данным существует высокий риск возникновения тонкой, но серьезной проблемы: утечки данных. Это происходит, когда информация, недоступная во время прогнозирования, случайно попадает в процесс обучения модели, завышая предсказательную эффективность. В нашей статье «О неправильном (использовании) машинного обучения с панельными данными» (Cerqua, Letta, and Pinto, 2025), недавно опубликованной в Oxford Bulletin of Economics and Statistics , мы предоставляем первую систематическую оценку утечки данных в МО с панельными данными, предлагаем четкие рекомендации для практиков и иллюстрируем последствия с помощью эмпирического приложения с общедоступными данными округов США.
Проблема утечки
Панельные данные сочетают в себе две структуры: временное измерение (единицы, наблюдаемые в течение времени) и поперечное измерение (множественные единицы, такие как регионы или компании). Стандартная практика МО, при которой выборка случайным образом разбивается на обучающий и тестовый наборы, неявно предполагает независимость и идентичное распределение (iid) данных. Это предположение нарушается при применении к панельным данным стандартных процедур МО (например, случайного разделения), что приводит к двум основным типам утечек:
- Временная утечка: будущая информация просачивается в модель на этапе обучения, из-за чего прогнозы выглядят нереалистично точными. Более того, прошлые данные могут попасть в тестовый набор, из-за чего «прогнозы» становятся ретроспективными.
- Утечка перекрестных данных: одни и те же или очень похожие единицы присутствуют как в обучающих, так и в тестовых наборах, что означает, что модель уже «увидела» большую часть поперечного измерения данных.
На рисунке 1 показано, как различные стратегии разделения влияют на риск утечки. Случайное разделение на уровне единиц времени (панель A) является наиболее проблематичным, поскольку приводит как к временной, так и к поперечной утечке. Альтернативные варианты, такие как разделение по единицам (панель B), по группам (панель C) или по времени (панель D), смягчают один тип утечки, но не другой. В результате ни одна стратегия не устраняет проблему полностью: правильный выбор зависит от поставленной задачи (см. ниже), поскольку в некоторых случаях один вид утечки может не представлять реальной проблемы.
Рисунок 1 | Обучающие и тестовые наборы при разных правилах разделения

Два типа проблем политики прогнозирования
Ключевой вывод исследования заключается в том, что исследователи должны чётко определить цель своего прогнозирования заранее. Мы выделяем два основных класса проблем политики прогнозирования:
1. Перекрёстное прогнозирование: задача состоит в сопоставлении результатов по единицам за один и тот же период. Например, импутирование пропущенных данных о ВВП на душу населения по регионам, когда только некоторые регионы имеют надёжные измерения. Оптимальное разделение здесь — на уровне единиц: разные единицы назначаются обучающим и тестовым наборам, при этом все временные периоды сохраняются. Это исключает перекрёстную утечку, хотя временная утечка остаётся. Но поскольку прогнозирование не является целью, это не является серьёзной проблемой.
2. Последовательное прогнозирование: цель состоит в прогнозировании будущих результатов на основе исторических данных, например, прогнозировании снижения доходов на уровне округа на год вперед для инициирования раннего вмешательства. Здесь правильное разделение по времени: более ранние периоды для обучения, более поздние периоды для тестирования. Это позволяет избежать временной утечки, но не перекрестной утечки, которая не вызывает опасений, поскольку одни и те же единицы прогнозируются во времени.
Неправильным подходом в обоих случаях является случайное разделение по единицам времени (панель A рисунка 1), что искажает результаты обоими типами утечек и приводит к получению обманчиво высоких показателей производительности.
Практические рекомендации
Чтобы помочь специалистам, мы суммируем ряд рекомендаций и запретов при применении МО к панельным данным:
- Всегда заранее уточняйте, является ли ваша задача поперечным прогнозированием или просто прогнозированием. Весь процесс машинного обучения должен быть спроектирован соответствующим образом.
- Выберите разделение выборки на основе исследовательского вопроса: по единицам для поперечных задач, по времени для прогнозирования.
- Временная утечка данных может происходить не только из-за наблюдений, но и из-за предикторов. Для прогнозирования используйте только запаздывающие или инвариантные во времени предикторы. Использование текущих переменных (например, использование уровня безработицы за 2014 год для прогнозирования дохода в 2014 году) концептуально неверно и приводит к временной утечке данных.
- Адаптируйте перекрёстную проверку к панельным данным. Случайный k-кратный вариационный анализ, используемый в большинстве готовых программных пакетов, не подходит, поскольку смешивает будущую и прошлую информацию. Вместо этого используйте скользящие или расширяющиеся окна для прогнозирования или стратифицированный вариационный анализ по единицам/группам для поперечного прогнозирования.
- Убедитесь, что эффективность вне выборки проверяется на действительно новых данных, а не на данных, с которыми вы уже сталкивались во время обучения.
Эмпирическое применение
Чтобы проиллюстрировать эти вопросы, мы анализируем сбалансированную выборку из 3058 округов США за период с 2000 по 2019 год, сосредоточившись исключительно на последовательном прогнозировании. Мы рассматриваем две задачи: задачу регрессии — прогнозирование дохода на душу населения — и задачу классификации — прогнозирование снижения дохода в следующем году.
Мы запускаем сотни моделей, варьируя стратегии разделения, используя одновременные предикторы, включая запаздывающие результаты и алгоритмы (Random Forest, XGBoost, Logit и OLS). Этот комплексный подход позволяет нам количественно оценить, как утечка влияет на производительность. На рисунке 2 ниже представлены наши основные выводы.
На панели A рисунка 2 показана эффективность прогнозирования для задач классификации. Случайное разделение обеспечивает очень высокую точность, но это иллюзия: модель уже получила аналогичные данные во время обучения.
На панели B показана эффективность прогнозирования для задач регрессии. Случайные разбиения снова создают впечатление, что модели выглядят гораздо лучше, чем они есть на самом деле, в то время как корректные разбиения, основанные на времени, демонстрируют гораздо более низкую, но реалистичную точность.
Рисунок 2 | Временная утечка в задаче прогнозирования
Панель A – Задача классификации

Панель B – Задача регрессии

В статье мы также показываем, что переоценка точности модели становится значительно более выраженной в годы, отмеченные сдвигами в распределении и структурными сдвигами, такими как Великая рецессия, что делает результаты особенно обманчивыми для целей политики.
Почему это важно
Утечка данных — это не просто техническая проблема; она имеет реальные последствия. В политических приложениях модель, кажущаяся очень точной на этапе проверки, может дать сбой после внедрения, что приведет к нерациональному распределению ресурсов, непредвиденным кризисам или ошибочному таргетингу. В бизнес-среде та же проблема может привести к принятию неверных инвестиционных решений, неэффективному таргетингу клиентов или ложной уверенности в оценке рисков. Опасность особенно велика, когда модели машинного обучения предназначены для использования в качестве систем раннего оповещения, где неоправданная вера в завышенные показатели эффективности может привести к дорогостоящим сбоям.
Напротив, правильно разработанные модели, даже если на бумаге они менее точны, дают честные и надежные прогнозы, которые могут оказать значимую помощь при принятии решений.
Еда на вынос
Машинное обучение (МО) может преобразовать процесс принятия решений как в политике, так и в бизнесе, но только при правильном применении. Панельные данные открывают широкие возможности, но при этом особенно уязвимы к утечкам данных. Для получения достоверных аналитических данных специалистам следует согласовывать свой рабочий процесс МО с целью прогнозирования, учитывать как временную, так и поперечную структуру данных и использовать стратегии валидации, которые предотвращают чрезмерно оптимистичные оценки и иллюзию высокой точности. При соблюдении этих принципов модели избегают ловушки завышенной эффективности и вместо этого предоставляют рекомендации, которые действительно помогают политикам распределять ресурсы, а компаниям принимать обоснованные стратегические решения. Учитывая быстрое внедрение МО с использованием панельных данных как в государственном, так и в частном секторах, устранение этих проблем является насущной задачей прикладных исследований.
Ссылки
А. Серкуа, М. Летта и Дж. Пинто, «О (неправильном) использовании машинного обучения с панельными данными», Оксфордский вестник экономики и статистики (2025): 1–13, https://doi.org/10.1111/obes.70019 .
Источник: towardsdatascience.com



























