Прекратите писать циклы в Pandas: 7 более быстрых альтернатив.
В этой статье вы узнаете, как заменить циклы pandas семью более быстрыми методами оптимизации обработки данных.

# Введение
Построчная итерация — одно из наиболее распространенных узких мест в производительности кода pandas . На небольших наборах данных это незаметно, но при обработке больших наборов данных становится существенным фактором.
Библиотека pandas построена на основе NumPy , которая выполняет операции над целыми массивами одновременно с помощью скомпилированного кода на языке C. Циклическая обработка строк в Python полностью обходит этот механизм и заставляет выполнять каждую операцию обратно в интерпретатор Python — по одной строке за раз.
В этой статье рассматриваются 7 альтернатив циклам в pandas, каждая из которых подходит для разных типов преобразований. К концу статьи у вас сформируется четкая схема, какой инструмент использовать в зависимости от сложности задачи.
Вы можете скачать блокнот Colab на GitHub .
# Настройка набора тестовых данных
В этой статье мы будем использовать реалистичный набор данных о заказах в электронной коммерции:
import pandas as pd import numpy as np np.random.seed(42) n = 100_000 categories = ['Электроника', 'Одежда', 'Дом и кухня', 'Спорт', 'Книги'] regions = ['Север', 'Юг', 'Восток', 'Запад'] df = pd.DataFrame({ 'order_id': range(1, n + 1), 'customer_age': np.random.randint(18, 70, n), 'product_category': np.random.choice(categories, n), 'region': np.random.choice(regions, n), 'price': np.round(np.random.uniform(5.0, 500.0, n), 2), 'quantity': np.random.randint(1, 10, n), 'days_to_ship': np.random.randint(1, 14, n), }) display(df.head())
Выход:
Теперь у нас есть набор данных из 100 000 строк, с которыми мы можем работать.
# 1. Использование векторизованных операций для арифметики
При выполнении любых арифметических операций или сравнений в столбце, векторизованные операции должны быть вашим первым выбором.
Наша цель : рассчитать общую выручку с каждого заказа.
df['revenue'] = df['price'] * df['quantity'] display(df[['price', 'quantity', 'revenue']].head())
Выход:
# 2. Применение функции для условной логики
Если преобразование включает в себя логику, которую нельзя выразить с помощью простых арифметических операций, метод `.apply()` позволяет передать функцию по столбцу или строке.
Наша цель : присваивать приоритетную этикетку для отправки в зависимости от количества дней до доставки.
def shipping_label(days): if days
Источник: www.kdnuggets.com
Похожие записи
Оцените материал:
Похожие записи
Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
