6577f3399eaa559c5388ed783e79de9b.jpg

«Рождественский календарь» по машинному обучению, день 10: DBSCAN в Excel.

Кластеризация и обнаружение аномалий на основе анализа соседних участков.

Делиться

6577f3399eaa559c5388ed783e79de9b

Вот и наступил 10-й день моего «Рождественского календаря» по машинному обучению. Хочу поблагодарить вас за поддержку.

Я создаю эти файлы Google Sheets уже много лет. Они постепенно развивались. Но когда приходит время их публиковать, мне всегда требуются часы, чтобы всё переорганизовать, привести в порядок и сделать их удобными для чтения.

Сегодня мы переходим к DBSCAN .

DBSCAN не обучается параметрической модели.

Как и LOF, DBSCAN не является параметрической моделью. Здесь нет формулы для хранения, нет правил, нет центроидов и ничего компактного для последующего использования.

Мы должны сохранить весь набор данных, поскольку структура плотности зависит от всех точек.

Его полное название — Density-Based Spatial Clustering of Applications with Noise (Пространственная кластеризация приложений на основе плотности с учетом шума) .

Но будьте осторожны: эта «плотность» не является гауссовой плотностью.

Это основанное на подсчетах понятие плотности населения. Просто «сколько соседей живут рядом со мной».

Почему DBSCAN особенный

Как следует из названия, DBSCAN выполняет две функции одновременно :

  • оно находит кластеры
  • Это отмечает аномалии (точки, которые не принадлежат ни к одному кластеру).

Именно поэтому я представляю алгоритмы в таком порядке:

  • k -средних и GMM — это модели кластеризации . В качестве выходных данных они выдают компактный объект: центроиды для k-средних, средние значения и дисперсии для GMM.
  • Isolation Forest и LOF — это модели, предназначенные исключительно для обнаружения аномалий . Их единственная цель — найти необычные точки.
  • DBSCAN занимает промежуточное положение. Он выполняет как кластеризацию, так и обнаружение аномалий , основываясь исключительно на понятии плотности окрестности.

Небольшой набор данных для большей интуитивности.

Мы используем тот же небольшой набор данных, что и для LOF: 1, 2, 3, 7, 8, 12

Если вы посмотрите на эти цифры, вы уже увидите две компактные группы:
Один примерно 1–2–3 года , другой примерно 7–8 лет , а 12 живут одни.

DBSCAN точно передает эту интуицию.

Краткое изложение в 3 шага

DBSCAN задает три простых вопроса для каждой точки:

  1. Сколько у вас соседей в пределах небольшого радиуса (eps)?
  2. У вас достаточно соседей, чтобы стать ключевой точкой (minPts)?
  3. После того, как мы определим ключевые моменты, к какой из связанных групп вы принадлежите?

Вот краткое описание алгоритма DBSCAN в 3 шага :

3d07b2ee28cee93c83ec929ed32c0def

Начнём шаг за шагом.

DBSCAN в 3 шага

Теперь, когда мы понимаем концепцию плотности застройки и районов, DBSCAN становится очень легко описать.
Вся работа алгоритма укладывается в три простых шага .

Шаг 1 – Подсчитайте соседей

Цель состоит в том, чтобы проверить, сколько соседей у каждой точки.

Мы берем небольшой радиус, называемый eps .

Для каждой точки мы рассматриваем все остальные точки и отмечаем те, расстояние до которых меньше eps.
Это наши соседи .

Это даёт нам первое представление о плотности:
Точка, имеющая множество соседей, находится в плотном регионе.
Точка с небольшим количеством соседей находится в малонаселенном регионе.

В качестве примера с одномерной игрушкой, как в нашем случае, обычно выбирают следующее:
eps = 2

Вокруг каждой точки мы рисуем небольшой интервал радиусом 2.

Почему он называется eps ?

Название eps происходит от греческой буквы ε (эпсилон) , которая традиционно используется в математике для обозначения малой величины или малого радиуса вокруг точки.
Таким образом, в DBSCAN eps буквально означает «небольшой радиус окрестности».

Это отвечает на вопрос:
Насколько далеко мы заглядываем вокруг каждой точки?

Таким образом, в Excel первым шагом является вычисление матрицы попарных расстояний , а затем подсчет количества соседей у каждой точки в пределах eps.

9a07ac7d63200c5b8b44f6866a1f6be2

Шаг 2 – Ключевые точки и плотность связности

Теперь, когда мы знаем соседей из Шага 1, мы применяем minPts , чтобы определить, какие точки являются Core .

В данном случае minPts означает минимальное количество баллов.

Это наименьшее количество соседей, которое должна иметь точка (внутри радиуса eps), чтобы считаться основной точкой.

Точка считается ядром, если она имеет как минимум minPts соседей внутри eps .
В противном случае, это может превратиться в «Границу» или «Шум» .

При eps = 2 и minPts = 2 у нас получается 12 элементов, которые не относятся к Core.

Как только ключевые точки известны, мы просто проверяем, какие точки достижимы из них с точки зрения плотности. Если точка может быть достигнута путем перемещения из одной ключевой точки в другую в пределах eps, она принадлежит к той же группе.

В Excel это можно представить в виде простой таблицы связей, показывающей, какие точки связаны через соседние точки ядра сети.

Именно эти взаимосвязи DBSCAN использует для формирования кластеров на шаге 3.

4c6d30d20cbae8d7a3b0c0527f3ab109

Шаг 3 – Присвоение меток кластерам

Цель состоит в том, чтобы преобразовать возможности подключения в реальные кластеры.

Как только матрица связности будет готова, кластеры появятся естественным образом.
DBSCAN просто группирует все связанные точки вместе.

Чтобы дать каждой группе простое и воспроизводимое название, мы используем очень интуитивно понятное правило:

Метка кластера — это наименьшая точка в связанной группе.

Например:

  • Группа {1, 2, 3} становится кластером 1.
  • Группа {7, 8} становится кластером 7
  • Точка, подобная 12, не имеющая соседей в ядре, становится шумом.

Именно это мы и отобразим в Excel с помощью формул.

56837c3b5e8302538ffe4966a6712b8e

Заключительные мысли

DBSCAN идеально подходит для обучения понятию локальной плотности.

Здесь нет вероятности, нет формулы Гаусса, нет этапа оценки.
Просто расстояния, соседи и небольшой радиус.

Но эта простота также ограничивает его возможности.
Поскольку DBSCAN использует один фиксированный радиус для всех, он не может адаптироваться, когда набор данных содержит кластеры разного масштаба.

HDBSCAN сохраняет ту же самую интуитивность, но анализирует все радиусы и сохраняет только те, которые остаются стабильными.
Этот метод гораздо надежнее и намного ближе к тому, как люди естественным образом воспринимают кластеры.

Источник: towardsdatascience.com

✅ Найденные теги: «Рождественский, DBSCAN, Excel, машинное обучение, новости, Рождественский Календарь

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек играет на скрипке на улице перед кирпичной стеной.
Протест против дата-центров, плакаты: "Вы не можете пить данные", "Вода — это жизнь".
dummy-img
Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.
ideipro logotyp
Руки режут свежий хлеб на деревянной доске.
Женщина с красными волосами смотрит через металлическую сферу на фоне кирпичной стены.
Мужчина заряжает электромобиль на зимней стоянке, снег, дальний план - деревья и горы.
Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Image Not Found
dummy-img

Спрос на хранилища для ИИ привёл к 24% росту прибыли производителей памяти NAND

Умные люди из аналитического агентства TrendForce провели анализ текущей ситуации производителей микросхем памяти NAND и пришли к выводу, что за последний квартал 2025 года их выручка прилично увеличилась, а показатели некоторых компаний прилично выделяются на фоне остальных.…

Мар 5, 2026
ideipro logotyp

Bitget Wallet интегрирует DT One для пополнения мобильной связи в более чем 170 странах

Bitget Wallet, приложение для повседневных финансов, объявил о партнерстве с DT One, которое позволит осуществлять пополнение мобильной связи напрямую внутри кошелька с использованием стейблкоинов, связывая ончейн-балансы с повседневными телеком-сервисами. Благодаря инфраструктуре DT One пользователи Bitget Wallet получают…

Мар 5, 2026
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых