Image

Объяснение ROC AUC: руководство для начинающих по оценке моделей классификации

Узнайте, как кривые ROC и AUC помогают вам выйти за рамки точности с помощью наглядных пособий и примеров.

Делиться

ddc4b217a29d1b3fc366cdfd227bfb7a

В предыдущей записи блога о матрице путаницы мы применили алгоритм логистической регрессии к набору данных о раке молочной железы в Висконсине, чтобы классифицировать опухоль как злокачественную или доброкачественную.

Мы оценили модель классификации, используя различные показатели, такие как точность, правильность и т. д.

Теперь, в моделях бинарной классификации, у нас есть еще один способ оценки модели, и это ROC AUC .

В этой статье мы обсудим, зачем нам еще одна метрика и когда ее следует использовать.

Для детального изучения ROC AUC мы рассмотрим набор данных IBM HR Analytics.

В этом наборе данных содержится информация о 1470 сотрудниках, такая как их возраст, должностная роль, пол, ежемесячный доход, удовлетворенность работой и т. д.

Всего имеется 34 характеристики, описывающие каждого сотрудника.

У нас также есть целевой столбец «Убыль» , который имеет значение «Да», если сотрудник покинул компанию, и «Нет», если сотрудник остался.

Давайте посмотрим на распределение классов целевого столбца.

f37ad938251b978c63e98c2eb12949ed

Из приведенного выше распределения классов мы можем заметить, что набор данных несбалансирован .

Теперь нам необходимо построить модель на основе этих данных, чтобы классифицировать сотрудников в зависимости от того, останутся ли они в компании или нет.

Поскольку это задача бинарной классификации (Да/Нет), давайте применим к этим данным алгоритм логистической регрессии.

Код:

import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import StandardScaler from sklearn.metrics import confused_matrix, classification_report # Загрузка набора данных df = pd.read_csv(«C:/HR-Employee-Attrition.csv») # Удаление неинформативных столбцов df.drop(['EmployeeNumber', 'Over18', 'EmployeeCount', 'StandardHours'], axis=1, inplace=True) # Кодирование целевого столбца df['Attrition'] = df['Attrition'].map({'Yes': 1, 'No': 0}) # Кодирование категориальных признаков методом прямого кодирования df = pd.get_dummies(df, drop_first=True) # Разделить признаки и цель X = df.drop('Attrition', axis=1) y = df['Attrition'] # Разделить на обучение и тестирование X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, stratify=y, random_state=42 ) # Масштабирование признаков scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # Обучить модель логистической регрессии model = LogisticRegression(max_iter=1000) model.fit(X_train_scaled, y_train) # Прогнозировать на тестовых данных y_pred = model.predict(X_test_scaled) # Прогнозировать вероятности для положительного класса y_prob = model.predict_proba(X_test_scaled)[:, 1] # Матрица путаницы и отчет о классификации conf_matrix = confused_matrix(y_test, y_pred) report = classification_report(y_test, y_pred) # Отображение результатов print(«Матрица путаницы:n», conf_matrix) print(«nОтчет о классификации:n», report)

Матрица путаницы и отчет о классификации

b21f785b646e193794e3d7c2b297804b

Из вышеприведенного отчета по классификации следует, что точность составляет 86%. Однако полнота для «1» (убыль = Да, то есть сотрудник уволился) составляет 0,34, что указывает на то, что модель правильно идентифицировала только 34% сотрудников, уволившихся с работы.

Показатель полноты для «0» (отсев = нет, т.е. сотрудник остался на работе) составляет 0,96, что говорит о том, что модель правильно определила 96% оставшихся сотрудников.

Это происходит из-за несбалансированного набора данных. Точность данных в данном случае может быть обманчива.

Означает ли это, что нам нужно изменить наш алгоритм? Нет.

Нам необходимо изменить способ оценки нашей модели, а наилучшим способом оценки моделей классификации с несбалансированным набором данных является ROC AUC .

Источник: towardsdatascience.com

✅ Найденные теги: новости, Объяснение
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых