Image

Машинное обучение и панельные данные: что нужно знать практикам

Как избежать переоценки эффективности, полезности и применимости моделей машинного обучения в реальных условиях из-за скрытой утечки данных

Делиться

ea83a6ca73580495457def1fdc62fa34

Авторы : Аугусто Серкуа, Марко Летта, Габриэле Пинто.

Машинное обучение (МО) заняло центральное место в экономике, социальных науках и принятии бизнес-решений. В государственном секторе МО всё чаще используется для решения так называемых задач прогнозирования политики: ситуаций, когда политики стремятся выявить субъекты, наиболее подверженные риску негативного исхода, и принять упреждающие меры, например, для определения целевых государственных субсидий, прогнозирования локальных рецессий или прогнозирования миграционных схем. В частном секторе аналогичные задачи прогнозирования возникают, когда компании стремятся спрогнозировать отток клиентов или оптимизировать оценку кредитного риска. В обеих областях более точные прогнозы приводят к более эффективному распределению ресурсов и более эффективным мерам вмешательства.

Для достижения этих целей алгоритмы МО все чаще применяются к панельным данным, характеризующимся повторными наблюдениями одних и тех же единиц в течение нескольких периодов времени. Однако модели МО изначально не были разработаны для использования с панельными данными, которые имеют отличительные поперечные и продольные измерения. При применении МО к панельным данным существует высокий риск возникновения тонкой, но серьезной проблемы: утечки данных. Это происходит, когда информация, недоступная во время прогнозирования, случайно попадает в процесс обучения модели, завышая предсказательную эффективность. В нашей статье «О неправильном (использовании) машинного обучения с панельными данными» (Cerqua, Letta, and Pinto, 2025), недавно опубликованной в Oxford Bulletin of Economics and Statistics , мы предоставляем первую систематическую оценку утечки данных в МО с панельными данными, предлагаем четкие рекомендации для практиков и иллюстрируем последствия с помощью эмпирического приложения с общедоступными данными округов США.

Проблема утечки

Панельные данные сочетают в себе две структуры: временное измерение (единицы, наблюдаемые в течение времени) и поперечное измерение (множественные единицы, такие как регионы или компании). Стандартная практика МО, при которой выборка случайным образом разбивается на обучающий и тестовый наборы, неявно предполагает независимость и идентичное распределение (iid) данных. Это предположение нарушается при применении к панельным данным стандартных процедур МО (например, случайного разделения), что приводит к двум основным типам утечек:

  • Временная утечка: будущая информация просачивается в модель на этапе обучения, из-за чего прогнозы выглядят нереалистично точными. Более того, прошлые данные могут попасть в тестовый набор, из-за чего «прогнозы» становятся ретроспективными.
  • Утечка перекрестных данных: одни и те же или очень похожие единицы присутствуют как в обучающих, так и в тестовых наборах, что означает, что модель уже «увидела» большую часть поперечного измерения данных.

На рисунке 1 показано, как различные стратегии разделения влияют на риск утечки. Случайное разделение на уровне единиц времени (панель A) является наиболее проблематичным, поскольку приводит как к временной, так и к поперечной утечке. Альтернативные варианты, такие как разделение по единицам (панель B), по группам (панель C) или по времени (панель D), смягчают один тип утечки, но не другой. В результате ни одна стратегия не устраняет проблему полностью: правильный выбор зависит от поставленной задачи (см. ниже), поскольку в некоторых случаях один вид утечки может не представлять реальной проблемы.

Рисунок 1 | Обучающие и тестовые наборы при разных правилах разделения

5726eb9f6fb33e42b334f19d772d1cf2

Два типа проблем политики прогнозирования

Ключевой вывод исследования заключается в том, что исследователи должны чётко определить цель своего прогнозирования заранее. Мы выделяем два основных класса проблем политики прогнозирования:

1. Перекрёстное прогнозирование: задача состоит в сопоставлении результатов по единицам за один и тот же период. Например, импутирование пропущенных данных о ВВП на душу населения по регионам, когда только некоторые регионы имеют надёжные измерения. Оптимальное разделение здесь — на уровне единиц: разные единицы назначаются обучающим и тестовым наборам, при этом все временные периоды сохраняются. Это исключает перекрёстную утечку, хотя временная утечка остаётся. Но поскольку прогнозирование не является целью, это не является серьёзной проблемой.

2. Последовательное прогнозирование: цель состоит в прогнозировании будущих результатов на основе исторических данных, например, прогнозировании снижения доходов на уровне округа на год вперед для инициирования раннего вмешательства. Здесь правильное разделение по времени: более ранние периоды для обучения, более поздние периоды для тестирования. Это позволяет избежать временной утечки, но не перекрестной утечки, которая не вызывает опасений, поскольку одни и те же единицы прогнозируются во времени.

Неправильным подходом в обоих случаях является случайное разделение по единицам времени (панель A рисунка 1), что искажает результаты обоими типами утечек и приводит к получению обманчиво высоких показателей производительности.

Практические рекомендации

Чтобы помочь специалистам, мы суммируем ряд рекомендаций и запретов при применении МО к панельным данным:

  • Всегда заранее уточняйте, является ли ваша задача поперечным прогнозированием или просто прогнозированием. Весь процесс машинного обучения должен быть спроектирован соответствующим образом.
  • Выберите разделение выборки на основе исследовательского вопроса: по единицам для поперечных задач, по времени для прогнозирования.
  • Временная утечка данных может происходить не только из-за наблюдений, но и из-за предикторов. Для прогнозирования используйте только запаздывающие или инвариантные во времени предикторы. Использование текущих переменных (например, использование уровня безработицы за 2014 год для прогнозирования дохода в 2014 году) концептуально неверно и приводит к временной утечке данных.
  • Адаптируйте перекрёстную проверку к панельным данным. Случайный k-кратный вариационный анализ, используемый в большинстве готовых программных пакетов, не подходит, поскольку смешивает будущую и прошлую информацию. Вместо этого используйте скользящие или расширяющиеся окна для прогнозирования или стратифицированный вариационный анализ по единицам/группам для поперечного прогнозирования.
  • Убедитесь, что эффективность вне выборки проверяется на действительно новых данных, а не на данных, с которыми вы уже сталкивались во время обучения.

Эмпирическое применение

Чтобы проиллюстрировать эти вопросы, мы анализируем сбалансированную выборку из 3058 округов США за период с 2000 по 2019 год, сосредоточившись исключительно на последовательном прогнозировании. Мы рассматриваем две задачи: задачу регрессии — прогнозирование дохода на душу населения — и задачу классификации — прогнозирование снижения дохода в следующем году.

Мы запускаем сотни моделей, варьируя стратегии разделения, используя одновременные предикторы, включая запаздывающие результаты и алгоритмы (Random Forest, XGBoost, Logit и OLS). Этот комплексный подход позволяет нам количественно оценить, как утечка влияет на производительность. На рисунке 2 ниже представлены наши основные выводы.

На панели A рисунка 2 показана эффективность прогнозирования для задач классификации. Случайное разделение обеспечивает очень высокую точность, но это иллюзия: модель уже получила аналогичные данные во время обучения.

На панели B показана эффективность прогнозирования для задач регрессии. Случайные разбиения снова создают впечатление, что модели выглядят гораздо лучше, чем они есть на самом деле, в то время как корректные разбиения, основанные на времени, демонстрируют гораздо более низкую, но реалистичную точность.

Рисунок 2 | Временная утечка в задаче прогнозирования

Панель A – Задача классификации

116338fca50c6e3da920c58e97dd5a3d

Панель B – Задача регрессии

b29a191a7651773483c82b65048cc82c

В статье мы также показываем, что переоценка точности модели становится значительно более выраженной в годы, отмеченные сдвигами в распределении и структурными сдвигами, такими как Великая рецессия, что делает результаты особенно обманчивыми для целей политики.

Почему это важно

Утечка данных — это не просто техническая проблема; она имеет реальные последствия. В политических приложениях модель, кажущаяся очень точной на этапе проверки, может дать сбой после внедрения, что приведет к нерациональному распределению ресурсов, непредвиденным кризисам или ошибочному таргетингу. В бизнес-среде та же проблема может привести к принятию неверных инвестиционных решений, неэффективному таргетингу клиентов или ложной уверенности в оценке рисков. Опасность особенно велика, когда модели машинного обучения предназначены для использования в качестве систем раннего оповещения, где неоправданная вера в завышенные показатели эффективности может привести к дорогостоящим сбоям.

Напротив, правильно разработанные модели, даже если на бумаге они менее точны, дают честные и надежные прогнозы, которые могут оказать значимую помощь при принятии решений.

Еда на вынос

Машинное обучение (МО) может преобразовать процесс принятия решений как в политике, так и в бизнесе, но только при правильном применении. Панельные данные открывают широкие возможности, но при этом особенно уязвимы к утечкам данных. Для получения достоверных аналитических данных специалистам следует согласовывать свой рабочий процесс МО с целью прогнозирования, учитывать как временную, так и поперечную структуру данных и использовать стратегии валидации, которые предотвращают чрезмерно оптимистичные оценки и иллюзию высокой точности. При соблюдении этих принципов модели избегают ловушки завышенной эффективности и вместо этого предоставляют рекомендации, которые действительно помогают политикам распределять ресурсы, а компаниям принимать обоснованные стратегические решения. Учитывая быстрое внедрение МО с использованием панельных данных как в государственном, так и в частном секторах, устранение этих проблем является насущной задачей прикладных исследований.

Ссылки

А. Серкуа, М. Летта и Дж. Пинто, «О (неправильном) использовании машинного обучения с панельными данными», Оксфордский вестник экономики и статистики (2025): 1–13, https://doi.org/10.1111/obes.70019 .

Источник: towardsdatascience.com

✅ Найденные теги: Машинное, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых