Архив рубрики ~Лента новостей~

Машинное обучение и панельные данные: что нужно знать практикам

Машинное обучение и панельные данные: что нужно знать практикам

Как избежать переоценки эффективности, полезности и применимости моделей машинного обучения в реальных условиях из-за скрытой утечки данных

Делиться

ea83a6ca73580495457def1fdc62fa34

Авторы : Аугусто Серкуа, Марко Летта, Габриэле Пинто.

Машинное обучение (МО) заняло центральное место в экономике, социальных науках и принятии бизнес-решений. В государственном секторе МО всё чаще используется для решения так называемых задач прогнозирования политики: ситуаций, когда политики стремятся выявить субъекты, наиболее подверженные риску негативного исхода, и принять упреждающие меры, например, для определения целевых государственных субсидий, прогнозирования локальных рецессий или прогнозирования миграционных схем. В частном секторе аналогичные задачи прогнозирования возникают, когда компании стремятся спрогнозировать отток клиентов или оптимизировать оценку кредитного риска. В обеих областях более точные прогнозы приводят к более эффективному распределению ресурсов и более эффективным мерам вмешательства.

Для достижения этих целей алгоритмы МО все чаще применяются к панельным данным, характеризующимся повторными наблюдениями одних и тех же единиц в течение нескольких периодов времени. Однако модели МО изначально не были разработаны для использования с панельными данными, которые имеют отличительные поперечные и продольные измерения. При применении МО к панельным данным существует высокий риск возникновения тонкой, но серьезной проблемы: утечки данных. Это происходит, когда информация, недоступная во время прогнозирования, случайно попадает в процесс обучения модели, завышая предсказательную эффективность. В нашей статье «О неправильном (использовании) машинного обучения с панельными данными» (Cerqua, Letta, and Pinto, 2025), недавно опубликованной в Oxford Bulletin of Economics and Statistics , мы предоставляем первую систематическую оценку утечки данных в МО с панельными данными, предлагаем четкие рекомендации для практиков и иллюстрируем последствия с помощью эмпирического приложения с общедоступными данными округов США.

Проблема утечки

Панельные данные сочетают в себе две структуры: временное измерение (единицы, наблюдаемые в течение времени) и поперечное измерение (множественные единицы, такие как регионы или компании). Стандартная практика МО, при которой выборка случайным образом разбивается на обучающий и тестовый наборы, неявно предполагает независимость и идентичное распределение (iid) данных. Это предположение нарушается при применении к панельным данным стандартных процедур МО (например, случайного разделения), что приводит к двум основным типам утечек:

  • Временная утечка: будущая информация просачивается в модель на этапе обучения, из-за чего прогнозы выглядят нереалистично точными. Более того, прошлые данные могут попасть в тестовый набор, из-за чего «прогнозы» становятся ретроспективными.
  • Утечка перекрестных данных: одни и те же или очень похожие единицы присутствуют как в обучающих, так и в тестовых наборах, что означает, что модель уже «увидела» большую часть поперечного измерения данных.

На рисунке 1 показано, как различные стратегии разделения влияют на риск утечки. Случайное разделение на уровне единиц времени (панель A) является наиболее проблематичным, поскольку приводит как к временной, так и к поперечной утечке. Альтернативные варианты, такие как разделение по единицам (панель B), по группам (панель C) или по времени (панель D), смягчают один тип утечки, но не другой. В результате ни одна стратегия не устраняет проблему полностью: правильный выбор зависит от поставленной задачи (см. ниже), поскольку в некоторых случаях один вид утечки может не представлять реальной проблемы.

Рисунок 1 | Обучающие и тестовые наборы при разных правилах разделения

5726eb9f6fb33e42b334f19d772d1cf2

Два типа проблем политики прогнозирования

Ключевой вывод исследования заключается в том, что исследователи должны чётко определить цель своего прогнозирования заранее. Мы выделяем два основных класса проблем политики прогнозирования:

1. Перекрёстное прогнозирование: задача состоит в сопоставлении результатов по единицам за один и тот же период. Например, импутирование пропущенных данных о ВВП на душу населения по регионам, когда только некоторые регионы имеют надёжные измерения. Оптимальное разделение здесь — на уровне единиц: разные единицы назначаются обучающим и тестовым наборам, при этом все временные периоды сохраняются. Это исключает перекрёстную утечку, хотя временная утечка остаётся. Но поскольку прогнозирование не является целью, это не является серьёзной проблемой.

2. Последовательное прогнозирование: цель состоит в прогнозировании будущих результатов на основе исторических данных, например, прогнозировании снижения доходов на уровне округа на год вперед для инициирования раннего вмешательства. Здесь правильное разделение по времени: более ранние периоды для обучения, более поздние периоды для тестирования. Это позволяет избежать временной утечки, но не перекрестной утечки, которая не вызывает опасений, поскольку одни и те же единицы прогнозируются во времени.

Неправильным подходом в обоих случаях является случайное разделение по единицам времени (панель A рисунка 1), что искажает результаты обоими типами утечек и приводит к получению обманчиво высоких показателей производительности.

Практические рекомендации

Чтобы помочь специалистам, мы суммируем ряд рекомендаций и запретов при применении МО к панельным данным:

  • Всегда заранее уточняйте, является ли ваша задача поперечным прогнозированием или просто прогнозированием. Весь процесс машинного обучения должен быть спроектирован соответствующим образом.
  • Выберите разделение выборки на основе исследовательского вопроса: по единицам для поперечных задач, по времени для прогнозирования.
  • Временная утечка данных может происходить не только из-за наблюдений, но и из-за предикторов. Для прогнозирования используйте только запаздывающие или инвариантные во времени предикторы. Использование текущих переменных (например, использование уровня безработицы за 2014 год для прогнозирования дохода в 2014 году) концептуально неверно и приводит к временной утечке данных.
  • Адаптируйте перекрёстную проверку к панельным данным. Случайный k-кратный вариационный анализ, используемый в большинстве готовых программных пакетов, не подходит, поскольку смешивает будущую и прошлую информацию. Вместо этого используйте скользящие или расширяющиеся окна для прогнозирования или стратифицированный вариационный анализ по единицам/группам для поперечного прогнозирования.
  • Убедитесь, что эффективность вне выборки проверяется на действительно новых данных, а не на данных, с которыми вы уже сталкивались во время обучения.

Эмпирическое применение

Чтобы проиллюстрировать эти вопросы, мы анализируем сбалансированную выборку из 3058 округов США за период с 2000 по 2019 год, сосредоточившись исключительно на последовательном прогнозировании. Мы рассматриваем две задачи: задачу регрессии — прогнозирование дохода на душу населения — и задачу классификации — прогнозирование снижения дохода в следующем году.

Мы запускаем сотни моделей, варьируя стратегии разделения, используя одновременные предикторы, включая запаздывающие результаты и алгоритмы (Random Forest, XGBoost, Logit и OLS). Этот комплексный подход позволяет нам количественно оценить, как утечка влияет на производительность. На рисунке 2 ниже представлены наши основные выводы.

На панели A рисунка 2 показана эффективность прогнозирования для задач классификации. Случайное разделение обеспечивает очень высокую точность, но это иллюзия: модель уже получила аналогичные данные во время обучения.

На панели B показана эффективность прогнозирования для задач регрессии. Случайные разбиения снова создают впечатление, что модели выглядят гораздо лучше, чем они есть на самом деле, в то время как корректные разбиения, основанные на времени, демонстрируют гораздо более низкую, но реалистичную точность.

Рисунок 2 | Временная утечка в задаче прогнозирования

Панель A – Задача классификации

116338fca50c6e3da920c58e97dd5a3d

Панель B – Задача регрессии

b29a191a7651773483c82b65048cc82c

В статье мы также показываем, что переоценка точности модели становится значительно более выраженной в годы, отмеченные сдвигами в распределении и структурными сдвигами, такими как Великая рецессия, что делает результаты особенно обманчивыми для целей политики.

Почему это важно

Утечка данных — это не просто техническая проблема; она имеет реальные последствия. В политических приложениях модель, кажущаяся очень точной на этапе проверки, может дать сбой после внедрения, что приведет к нерациональному распределению ресурсов, непредвиденным кризисам или ошибочному таргетингу. В бизнес-среде та же проблема может привести к принятию неверных инвестиционных решений, неэффективному таргетингу клиентов или ложной уверенности в оценке рисков. Опасность особенно велика, когда модели машинного обучения предназначены для использования в качестве систем раннего оповещения, где неоправданная вера в завышенные показатели эффективности может привести к дорогостоящим сбоям.

Напротив, правильно разработанные модели, даже если на бумаге они менее точны, дают честные и надежные прогнозы, которые могут оказать значимую помощь при принятии решений.

Еда на вынос

Машинное обучение (МО) может преобразовать процесс принятия решений как в политике, так и в бизнесе, но только при правильном применении. Панельные данные открывают широкие возможности, но при этом особенно уязвимы к утечкам данных. Для получения достоверных аналитических данных специалистам следует согласовывать свой рабочий процесс МО с целью прогнозирования, учитывать как временную, так и поперечную структуру данных и использовать стратегии валидации, которые предотвращают чрезмерно оптимистичные оценки и иллюзию высокой точности. При соблюдении этих принципов модели избегают ловушки завышенной эффективности и вместо этого предоставляют рекомендации, которые действительно помогают политикам распределять ресурсы, а компаниям принимать обоснованные стратегические решения. Учитывая быстрое внедрение МО с использованием панельных данных как в государственном, так и в частном секторах, устранение этих проблем является насущной задачей прикладных исследований.

Ссылки

А. Серкуа, М. Летта и Дж. Пинто, «О (неправильном) использовании машинного обучения с панельными данными», Оксфордский вестник экономики и статистики (2025): 1–13, https://doi.org/10.1111/obes.70019 .

Источник: towardsdatascience.com

✅ Найденные теги: Машинное, новости
Читайте также
Архив рубрики ~Обо всем~ Компания Framework задерживает поставки ноутбуков Laptop 13 Pro на месяц. Архив рубрики ~Обо всем~ Все анонсы с конференции Apple WWDC 2026 — включая Siri, бета-версию iOS 27 для разработчиков и многое другое. Архив рубрики ~Обо всем~ Чемпионат мира по футболу FIFA 2026: как смотреть все матчи в США без кабельного телевидения Архив рубрики ~Обо всем~ PySpark для начинающих: за пределами основ Архив рубрики ~Обо всем~ YouTube расширяет возможности обмена личными сообщениями на территорию США. Архив рубрики ~Обо всем~ Три ключевых показателя составляют «городской пульс» города. Архив рубрики ~Обо всем~ Поддержит ли ваш iPhone искусственный интеллект Siri? Ответ неясен. Архив рубрики ~Обо всем~ Когда использование графического процессора обманчиво: проблема скрытых систем, замедляющая развитие современного ИИ. Архив рубрики ~Обо всем~ Определение автономии для оздоровительных роботов в учреждениях по уходу за пожилыми людьми Архив рубрики ~Обо всем~ В видеоролике, посвященном игре Fable, демонстрируется захватывающая система симулятора жизни в этой ролевой игре. Архив рубрики ~Обо всем~ В июньском обновлении Microsoft исправила 198 ошибок Windows, 3 из которых являются уязвимостями нулевого дня. Архив рубрики ~Обо всем~ NuCS против Choco: решатель ограничений на чистом Python встречается с ветераном JVM. Архив рубрики ~Обо всем~ Почему создание орбитальных центров обработки данных сложнее, чем считают в Кремниевой долине Архив рубрики ~Обо всем~ Подкаст Engadget: Мысли о WWDC 2026 из Apple Park Архив рубрики ~Обо всем~ Компания Framework задерживает поставки ноутбуков Laptop 13 Pro на месяц. Архив рубрики ~Обо всем~ Все анонсы с конференции Apple WWDC 2026 — включая Siri, бета-версию iOS 27 для разработчиков и многое другое. Архив рубрики ~Обо всем~ Чемпионат мира по футболу FIFA 2026: как смотреть все матчи в США без кабельного телевидения Архив рубрики ~Обо всем~ PySpark для начинающих: за пределами основ Архив рубрики ~Обо всем~ YouTube расширяет возможности обмена личными сообщениями на территорию США. Архив рубрики ~Обо всем~ Три ключевых показателя составляют «городской пульс» города. Архив рубрики ~Обо всем~ Поддержит ли ваш iPhone искусственный интеллект Siri? Ответ неясен. Архив рубрики ~Обо всем~ Когда использование графического процессора обманчиво: проблема скрытых систем, замедляющая развитие современного ИИ. Архив рубрики ~Обо всем~ Определение автономии для оздоровительных роботов в учреждениях по уходу за пожилыми людьми Архив рубрики ~Обо всем~ В видеоролике, посвященном игре Fable, демонстрируется захватывающая система симулятора жизни в этой ролевой игре. Архив рубрики ~Обо всем~ В июньском обновлении Microsoft исправила 198 ошибок Windows, 3 из которых являются уязвимостями нулевого дня. Архив рубрики ~Обо всем~ NuCS против Choco: решатель ограничений на чистом Python встречается с ветераном JVM. Архив рубрики ~Обо всем~ Почему создание орбитальных центров обработки данных сложнее, чем считают в Кремниевой долине Архив рубрики ~Обо всем~ Подкаст Engadget: Мысли о WWDC 2026 из Apple Park

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.