Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

Машинное обучение и панельные данные: что нужно знать практикам

Окт 17, 2025 0

Содержание

Как избежать переоценки эффективности, полезности и применимости моделей машинного обучения в реальных условиях из-за скрытой утечки данных

Делиться

Авторы : Аугусто Серкуа, Марко Летта, Габриэле Пинто.

Машинное обучение (МО) заняло центральное место в экономике, социальных науках и принятии бизнес-решений. В государственном секторе МО всё чаще используется для решения так называемых задач прогнозирования политики: ситуаций, когда политики стремятся выявить субъекты, наиболее подверженные риску негативного исхода, и принять упреждающие меры, например, для определения целевых государственных субсидий, прогнозирования локальных рецессий или прогнозирования миграционных схем. В частном секторе аналогичные задачи прогнозирования возникают, когда компании стремятся спрогнозировать отток клиентов или оптимизировать оценку кредитного риска. В обеих областях более точные прогнозы приводят к более эффективному распределению ресурсов и более эффективным мерам вмешательства.

Для достижения этих целей алгоритмы МО все чаще применяются к панельным данным, характеризующимся повторными наблюдениями одних и тех же единиц в течение нескольких периодов времени. Однако модели МО изначально не были разработаны для использования с панельными данными, которые имеют отличительные поперечные и продольные измерения. При применении МО к панельным данным существует высокий риск возникновения тонкой, но серьезной проблемы: утечки данных. Это происходит, когда информация, недоступная во время прогнозирования, случайно попадает в процесс обучения модели, завышая предсказательную эффективность. В нашей статье «О неправильном (использовании) машинного обучения с панельными данными» (Cerqua, Letta, and Pinto, 2025), недавно опубликованной в Oxford Bulletin of Economics and Statistics , мы предоставляем первую систематическую оценку утечки данных в МО с панельными данными, предлагаем четкие рекомендации для практиков и иллюстрируем последствия с помощью эмпирического приложения с общедоступными данными округов США.

Проблема утечки

Панельные данные сочетают в себе две структуры: временное измерение (единицы, наблюдаемые в течение времени) и поперечное измерение (множественные единицы, такие как регионы или компании). Стандартная практика МО, при которой выборка случайным образом разбивается на обучающий и тестовый наборы, неявно предполагает независимость и идентичное распределение (iid) данных. Это предположение нарушается при применении к панельным данным стандартных процедур МО (например, случайного разделения), что приводит к двум основным типам утечек:

Временная утечка: будущая информация просачивается в модель на этапе обучения, из-за чего прогнозы выглядят нереалистично точными. Более того, прошлые данные могут попасть в тестовый набор, из-за чего «прогнозы» становятся ретроспективными.
Утечка перекрестных данных: одни и те же или очень похожие единицы присутствуют как в обучающих, так и в тестовых наборах, что означает, что модель уже «увидела» большую часть поперечного измерения данных.

На рисунке 1 показано, как различные стратегии разделения влияют на риск утечки. Случайное разделение на уровне единиц времени (панель A) является наиболее проблематичным, поскольку приводит как к временной, так и к поперечной утечке. Альтернативные варианты, такие как разделение по единицам (панель B), по группам (панель C) или по времени (панель D), смягчают один тип утечки, но не другой. В результате ни одна стратегия не устраняет проблему полностью: правильный выбор зависит от поставленной задачи (см. ниже), поскольку в некоторых случаях один вид утечки может не представлять реальной проблемы.

Рисунок 1 | Обучающие и тестовые наборы при разных правилах разделения

Два типа проблем политики прогнозирования

Ключевой вывод исследования заключается в том, что исследователи должны чётко определить цель своего прогнозирования заранее. Мы выделяем два основных класса проблем политики прогнозирования:

1. Перекрёстное прогнозирование: задача состоит в сопоставлении результатов по единицам за один и тот же период. Например, импутирование пропущенных данных о ВВП на душу населения по регионам, когда только некоторые регионы имеют надёжные измерения. Оптимальное разделение здесь — на уровне единиц: разные единицы назначаются обучающим и тестовым наборам, при этом все временные периоды сохраняются. Это исключает перекрёстную утечку, хотя временная утечка остаётся. Но поскольку прогнозирование не является целью, это не является серьёзной проблемой.

2. Последовательное прогнозирование: цель состоит в прогнозировании будущих результатов на основе исторических данных, например, прогнозировании снижения доходов на уровне округа на год вперед для инициирования раннего вмешательства. Здесь правильное разделение по времени: более ранние периоды для обучения, более поздние периоды для тестирования. Это позволяет избежать временной утечки, но не перекрестной утечки, которая не вызывает опасений, поскольку одни и те же единицы прогнозируются во времени.

Неправильным подходом в обоих случаях является случайное разделение по единицам времени (панель A рисунка 1), что искажает результаты обоими типами утечек и приводит к получению обманчиво высоких показателей производительности.

Практические рекомендации

Чтобы помочь специалистам, мы суммируем ряд рекомендаций и запретов при применении МО к панельным данным:

Всегда заранее уточняйте, является ли ваша задача поперечным прогнозированием или просто прогнозированием. Весь процесс машинного обучения должен быть спроектирован соответствующим образом.
Выберите разделение выборки на основе исследовательского вопроса: по единицам для поперечных задач, по времени для прогнозирования.
Временная утечка данных может происходить не только из-за наблюдений, но и из-за предикторов. Для прогнозирования используйте только запаздывающие или инвариантные во времени предикторы. Использование текущих переменных (например, использование уровня безработицы за 2014 год для прогнозирования дохода в 2014 году) концептуально неверно и приводит к временной утечке данных.
Адаптируйте перекрёстную проверку к панельным данным. Случайный k-кратный вариационный анализ, используемый в большинстве готовых программных пакетов, не подходит, поскольку смешивает будущую и прошлую информацию. Вместо этого используйте скользящие или расширяющиеся окна для прогнозирования или стратифицированный вариационный анализ по единицам/группам для поперечного прогнозирования.
Убедитесь, что эффективность вне выборки проверяется на действительно новых данных, а не на данных, с которыми вы уже сталкивались во время обучения.

Эмпирическое применение

Чтобы проиллюстрировать эти вопросы, мы анализируем сбалансированную выборку из 3058 округов США за период с 2000 по 2019 год, сосредоточившись исключительно на последовательном прогнозировании. Мы рассматриваем две задачи: задачу регрессии — прогнозирование дохода на душу населения — и задачу классификации — прогнозирование снижения дохода в следующем году.

Мы запускаем сотни моделей, варьируя стратегии разделения, используя одновременные предикторы, включая запаздывающие результаты и алгоритмы (Random Forest, XGBoost, Logit и OLS). Этот комплексный подход позволяет нам количественно оценить, как утечка влияет на производительность. На рисунке 2 ниже представлены наши основные выводы.

На панели A рисунка 2 показана эффективность прогнозирования для задач классификации. Случайное разделение обеспечивает очень высокую точность, но это иллюзия: модель уже получила аналогичные данные во время обучения.

На панели B показана эффективность прогнозирования для задач регрессии. Случайные разбиения снова создают впечатление, что модели выглядят гораздо лучше, чем они есть на самом деле, в то время как корректные разбиения, основанные на времени, демонстрируют гораздо более низкую, но реалистичную точность.

Рисунок 2 | Временная утечка в задаче прогнозирования

Панель A – Задача классификации

Панель B – Задача регрессии

В статье мы также показываем, что переоценка точности модели становится значительно более выраженной в годы, отмеченные сдвигами в распределении и структурными сдвигами, такими как Великая рецессия, что делает результаты особенно обманчивыми для целей политики.

Почему это важно

Утечка данных — это не просто техническая проблема; она имеет реальные последствия. В политических приложениях модель, кажущаяся очень точной на этапе проверки, может дать сбой после внедрения, что приведет к нерациональному распределению ресурсов, непредвиденным кризисам или ошибочному таргетингу. В бизнес-среде та же проблема может привести к принятию неверных инвестиционных решений, неэффективному таргетингу клиентов или ложной уверенности в оценке рисков. Опасность особенно велика, когда модели машинного обучения предназначены для использования в качестве систем раннего оповещения, где неоправданная вера в завышенные показатели эффективности может привести к дорогостоящим сбоям.

Напротив, правильно разработанные модели, даже если на бумаге они менее точны, дают честные и надежные прогнозы, которые могут оказать значимую помощь при принятии решений.

Еда на вынос

Машинное обучение (МО) может преобразовать процесс принятия решений как в политике, так и в бизнесе, но только при правильном применении. Панельные данные открывают широкие возможности, но при этом особенно уязвимы к утечкам данных. Для получения достоверных аналитических данных специалистам следует согласовывать свой рабочий процесс МО с целью прогнозирования, учитывать как временную, так и поперечную структуру данных и использовать стратегии валидации, которые предотвращают чрезмерно оптимистичные оценки и иллюзию высокой точности. При соблюдении этих принципов модели избегают ловушки завышенной эффективности и вместо этого предоставляют рекомендации, которые действительно помогают политикам распределять ресурсы, а компаниям принимать обоснованные стратегические решения. Учитывая быстрое внедрение МО с использованием панельных данных как в государственном, так и в частном секторах, устранение этих проблем является насущной задачей прикладных исследований.

Ссылки

А. Серкуа, М. Летта и Дж. Пинто, «О (неправильном) использовании машинного обучения с панельными данными», Оксфордский вестник экономики и статистики (2025): 1–13, https://doi.org/10.1111/obes.70019 .

Источник: towardsdatascience.com

✅ Найденные теги: Машинное, новости

Метки:

Машинное новости

ПРЕДЫДУЩАЯ ЗАПИСЬ

17.10.2025

24 часа, чтобы представить свой стартап на Disrupt 2025

СЛЕДУЮЩАЯ ЗАПИСЬ

17.10.2025

Эти компании убили миллионы людей. Как так вышло?

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

Машинное обучение и панельные данные: что нужно знать практикам

Проблема утечки

Два типа проблем политики прогнозирования

Практические рекомендации

Эмпирическое применение

Почему это важно

Еда на вынос

Ссылки

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в