Что я узнал о том, как ускорить работу Pandas после слишком большого количества медленных блокнотов и зависших сессий.
Делиться

В прошлом месяце я опубликовал статью, в которой подробно рассмотрел некоторые новые инструменты для работы с DataFrame в Python, такие как Polars и DuckDB.
Я изучил, как они могут улучшить рабочий процесс в области анализа данных и повысить эффективность при обработке больших наборов данных.
Вот ссылка на статью.
Современные DataFrames в Python: практическое руководство с использованием Polar и DuckDB.
Основная идея заключалась в том, чтобы дать специалистам по работе с данными представление о том, как выглядят «современные датафреймы» и как эти инструменты могут изменить наш подход к работе с данными.
Но произошло кое-что интересное: из полученных отзывов я понял, что многие специалисты по анализу данных по-прежнему в значительной степени полагаются на Pandas в своей повседневной работе.
И я прекрасно понимаю почему.
Даже при наличии всех новых возможностей, Pandas остается основой для анализа данных на Python.
И это основано не только на нескольких комментариях.
Согласно недавнему опросу State of Data Science, 77% специалистов используют Pandas для исследования и обработки данных.
Мне нравится думать о пандах как о том надёжном старом друге, которому вы постоянно звоните: может быть, не самом эффектном, но вы знаете, что он всегда выполнит свою работу.
Таким образом, хотя новые инструменты, безусловно, обладают своими преимуществами, очевидно, что Pandas никуда не денется в ближайшее время.
Для многих из нас настоящая проблема заключается не в замене Pandas, а в том, чтобы сделать его более эффективным и менее проблематичным при работе с большими наборами данных.
В этой статье я расскажу вам о семи практических способах ускорения работы с Pandas. Эти способы просты в реализации, но способны заметно ускорить ваш код.
Источник: towardsdatascience.com





















