Прежде чем обратиться к Близнецам, я вернусь к задаче предварительной обработки данных.

28.06.2026 ideipro.ru

Как Близнецы решили мою проблему с Пандами за считанные секунды, и почему основы науки о данных по-прежнему важны для принципа неоптимальных решений.

Делиться

Изображение, полученное Национальным институтом борьбы с инфекционными заболеваниями через Unsplash.

Как специалисты при анализе данных, мы тратим немало времени на подготовку данных для решения задач. Будь то очистка данных, обработка пропущенных результатов, разработка признаков, предварительная обработка данных или постобработка, этот этап требует много времени. столбцов.

Я мог бы напрямую подключиться к магистральному праву и написать код (что я обычно и делаю), но на этот раз я хотел сделать это сам. Было раннее утро, и у меня были свежие мысли, поэтому я был настроен на выполнение сложных операций с данными.

Вот что мне пришлось сделать. У меня был DataFrame со столбцами predicted_categories , pred_category_id и text_predicted_probs .

Значения в столбце predicted_categories формируются из пяти категорий в формате «category_id» – «category_description».

 ['80814001 - Заморозить Uçları', '13003106 - Freze', '80805004 - Sanayi Makineleri', '13003144 - Torna Makinesi', '13003195 - Kumpas']

В столбце text_predicted_probs какие прогнозируемые вероятности для этих пяти категорий в порядке возрастания.

 [0.943, 0.018, 0.008, 0.006, 0.004]

Таким образом, первое значение в text_predicted_probs — это заявки первой категории в predicted_categories , и так далее.

В столбце pred_category_id отображает прогнозируемый идентификатор категории другой модели. Мне же нужна прогнозируемая категория категорий, указанная в столбце pred_category_id .

Мне нужно получить порядок результатов pred_category_id в столбце predicted_categories , а затем возьмите их значение из столбца test_predicted_probs .

На примере ниже показано, чего я хочу добиться:

В этом показателе мне необходимо получить категорию 13003106, которая является вторым компонентом в списке, и ее значение составляет 0,018.

Если бы мы спросили Gemini или другую модель, мы, вероятно, получили бы ответ за считанные секунды. Но я хотел сначала сделать это сам, а потом спросить Gemini.

Начнём с чтения набора данных в DataFrame Pandas.

 import pandas as pd results = pd.read_csv("prediction_results.csv")

Значения в столбце predicted_categoriesсформированы строки, содержащие идентификаторы категорий и названия категорий:

 results.loc[0, "predicted_categories"] # вывод: "['80814001 - Freze Uçları', '13003106 - Freze', '80805004 - Sanayi Makineleri', '13003144 - Torna Makinesi', '13003195 - Kumpas']"

Это список, но сохраняется как строка, поэтому сначала мы преобразуем его в объектную строку, с помощью функции literal_eval встроенной модуля ast на Python:

 ast.literal_eval(results.loc[0, "predicted_categories"]) # вывод: ['80814001 - Заморозить данные', '13003106 - Заморозить', '80805004 - Санайи Makineleri', '13003144 - Torna Makinesi', '13003195 - Kumpas']

Чтобы определить идентификаторы категорий, мы можем выбрать каждую категорию в этом списке по символу «-», а затем выберите первую часть после разделения. поскольку у нас есть список из пяти категорий, операцию следует выбирать с помощью спискового выражения следующим образом:

 [category.split("-")[0].strip() для категории в ast.literal_eval(results.loc[0, "predicted_categories"])] # вывод: ['80814001', '13003106', '80805004', '13003144', '13003195']

Мы сделали это для одного значения (т.е. одной строки). Чтобы выполнить ту же операцию для всего столбца predicted_categories, мы можем использовать генератор списков. Это будет генератор списков внутри другого генератора списков (т.е. вложенный генератор списков):

 results.loc[:, "predicted_category_ids"] = [ [category.split("-")[0].strip() для категории в ast.literal_eval(predicted_categories)] для предсказанных_категорий в результатах["predicted_categories"] ]

Теперь у нас есть одинаковые категории, выделенные из столбца предсказанные_категории: