Image

Руководство для начинающих по Pandas DataFrames

Узнайте, как инициализировать фреймы данных из словарей, списков и массивов NumPy.

Делиться

4fd8540e586fdc73b7fb5f830b697e8a

Имея опыт работы с SQL, изучение Python для анализа данных оказалось довольно сложным. Синтаксис проще, это правда. Однако язык и терминология совершенно другие. В SQL вам придётся взаимодействовать с базами данных, таблицами и столбцами. Однако в Python для анализа данных вашей основной задачей будут структуры данных.

Структуры данных в Python подобны объектам хранения данных. Python включает в себя несколько встроенных структур данных, таких как списки, кортежи, множества и словари. Все они используются для хранения и обработки данных. Некоторые из них изменяемы (списки), а некоторые — нет (кортежи). Чтобы узнать больше о структурах данных Python, я настоятельно рекомендую прочитать книгу Уэса Маккинни «Python for Data Analysis». Я только начал её читать, и она, на мой взгляд, просто потрясающая.

В этой статье я собираюсь пошагово рассказать вам, что такое DataFrame в Pandas и как его создать.

Понять основы массивов

В Python есть библиотека NumPy; возможно, вы о ней слышали. Она в основном используется для математических и численных вычислений. Одна из её функций — создание массивов. Вы, возможно, задаётесь вопросом: что же такое массив?

Массив похож на список, но хранит только значения одного типа данных. Списки же могут хранить значения разных типов данных (целое число, текст, логическое значение и т. д.). Вот пример списка.

my_list = [1, «привет», 3.14, Истина]

Списки также изменяемы. Другими словами, вы можете добавлять и удалять элементы.

Вернёмся к массивам. В Numpy массивы могут быть многомерными — это называется ndarrays (N-мерные массивы). Например, импортируем библиотеку Numpy в Python.

импортировать numpy как np

Для создания простого массива в Numpy мы используем функцию np.array(). В этой функции хранится наш массив.

arr = np.array([1, 2, 3, 4, 5]) arr

Вот результат:

массив([1, 2, 3, 4, 5])

Для проверки типа данных.

тип(обр)

Мы получим тип данных.

numpy.ndarray

Массивы хороши тем, что с ними можно выполнять математические вычисления. Например,

обр*2

Результат:

массив([2, 4, 6, 8, 10])

Круто, правда?

Теперь, когда вы знакомы с основами массивов в Numpy, давайте углубимся в N-мерные массивы.

Массив, который вы видите выше, является одномерным (1D). Одномерные массивы, также известные как векторные массивы, состоят из последовательности значений. Например, [1,2,3,4,5]

Двумерные массивы (Matrix) могут хранить одномерные массивы в качестве значений. Подобно строкам таблицы в SQL, каждый одномерный массив представляет собой одну строку данных. Вывод представляет собой таблицу значений. Например:

импортировать numpy как np arr = np.array([[1, 2, 3], [4, 5, 6]]) arr

Выход:

[[1 2 3] [4 5 6]]

Трёхмерные массивы (тензоры) могут хранить двумерные массивы (матрицы). Например,

импортировать numpy как np arr = np.array([[[1, 2, 3], [4, 5, 6]], [[1, 2, 3], [4, 5, 6]]]) arr

Выход:

[[[1 2 3] [4 5 6]] [[1 2 3] [4 5 6]]]

Массив может иметь бесконечное число измерений в зависимости от объема данных, которые вы хотите хранить.

Создание фрейма данных из массива

Теперь, когда вы поняли суть массивов, давайте создадим на их основе DataFrame.

Сначала нам нужно импортировать библиотеки pandas и NumPy.

импортировать pandas как pd импортировать numpy как np

Далее создадим наш массив:

данные = np.массив([[1, 4], [2, 5], [3, 6]])

Здесь я создал двумерный массив. Pandas DataFrame может хранить только одномерные и двумерные массивы. Если вы попытаетесь передать трёхмерный массив, возникнет ошибка.

Теперь, когда у нас есть массив, давайте передадим его в DataFrame. Для создания DataFrame используйте функцию pd.DataFrame().

# создание DataFrame df = pd.DataFrame(data) # отображение DataFrame df

Выход

0 1 0 1 4 1 2 5 2 3 6

Пока выглядит неплохо. Но нужно немного отформатировать:

# создание фрейма данных df = pd.DataFrame(data, index=['row1', 'row2', 'row3'], columns=['col1', 'col2']) # отображение фрейма данных df

Выход

col1 col2 row1 1 4 row2 2 5 row3 3 6

Вот это уже лучше. Всё, что я сделал, — это переименовал строки, используя атрибут index, и столбцы, используя атрибут columns.

Вот и всё, у вас есть DataFrame. Всё очень просто. Давайте рассмотрим ещё несколько удобных способов создания DataFrame.

Создание DataFrame из словаря

Одна из встроенных структур данных в Python — это словари. По сути, словари используются для хранения пар «ключ-значение», где все ключи должны быть уникальными и неизменяемыми. Это обозначается фигурными скобками {}. Вот пример словаря:

dict = {«имя»: «Джон», «возраст»: 30}

Здесь ключи — имя и возраст, а значения — Алиса и 30. Всё просто. Теперь давайте создадим DataFrame из словаря.

имена = [«Джон», «Дэвид», «Джейн», «Мэри»] возраст = [30, 27, 35, 23]

Сначала я создал список для хранения нескольких имен и возрастов:

dict_names = {'Имена': имена, 'Возраст': возраст}

Затем я сохранил все значения в словаре и создал ключи для имен и возраста.

# Создание фрейма данных df_names = pd.DataFrame(dict_names) df_names

Выше представлен DataFrame, хранящий созданный нами словарь. Вот результат:

Имена Возраст 0 Джон 30 1 Дэвид 27 2 Джейн 35 3 Мэри 23

И вот, у нас есть DataFrame, созданный из словаря.

Создание DataFrame из CSV-файла

Вероятно, именно этот метод вы будете использовать чаще всего. В Pandas принято читать CSV-файлы при анализе данных. Аналогично открытию таблиц в Excel или импорту данных в SQL. В Python чтение CSV-файлов осуществляется с помощью функции read_csv(). Вот пример:

# чтение CSV-файла df_exams = pd.read_csv('StudentsPerformance.csv')

В некоторых случаях вам придется скопировать путь к файлу и вставить его как:

pd.read_csv(“C:datasuppliers lists — Sheet1.csv”)

Выход:

Изображение автора

И вот так!

Подведение итогов

Создание объектов DataFrame в Pandas может показаться сложным, но на самом деле это не так. В большинстве случаев вы, вероятно, всё равно будете работать с CSV-файлами. Так что не переживайте. Надеюсь, эта статья оказалась для вас полезной. Буду рад узнать ваше мнение в комментариях. Спасибо за прочтение!

Хотите познакомиться? Не стесняйтесь поздороваться на этих платформах.

LinkedIn

Твиттер

Ютуб

Середина

Источник: towardsdatascience.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых