Предотвратите сбои в работе ваших трубопроводов по пятницам после обеда с помощью простой проверки с открытым исходным кодом от Pandera.
Делиться

Проблема
Давайте будем честны: мы все через это проходили.
Пятница, вечер. Вы обучили модель, проверили её и развернули конвейер вывода. Метрики выглядят зелёными. Вы закрываете ноутбук на выходные и наслаждаетесь отдыхом.
В понедельник утром при регистрации на работу вы видите сообщение «Сбой конвейера» . Что происходит? Всё было идеально, когда вы развернули конвейер вывода.
На самом деле проблема может быть в нескольких вещах. Возможно, команда разработчиков изменила столбец user_id с целого числа на строку. Или столбец price внезапно стал содержать отрицательные числа. Или, например, мой любимый вариант: название столбца изменилось с created_at на createdAt (camelCase снова в деле!).
В индустрии это называется «дрейф схемы» . Я называю это головной болью.
В последнее время много говорят о контрактах на данные . Обычно это подразумевает продажу вам дорогой SaaS-платформы или сложной архитектуры микросервисов. Но если вы просто специалист по анализу данных или инженер, пытающийся предотвратить взрывной рост своих конвейеров Python, вам не обязательно раздувать корпоративные системы.
Источник: towardsdatascience.com





















