1d409c1b6c039284adf37147ac741ebf.jpg

«Адвент-календарь» машинного обучения. День 5: GMM в Excel

От k-средних до гауссовой смеси: понимание EM с помощью простых формул Excel

Делиться

1d409c1b6c039284adf37147ac741ebf

В предыдущей статье мы исследовали кластеризацию на основе расстояний с использованием метода K-средних.

Сегодня мы сделаем еще один шаг: чтобы улучшить способ измерения расстояния, мы добавим дисперсию, чтобы получить расстояние Махаланобиса.

Итак, если k-Means является неконтролируемой версией классификатора ближайшего центроида , то возникает естественный вопрос:

Что такое неконтролируемая версия QDA?

Это означает, что, как и в случае QDA, каждый кластер теперь должен быть описан не только средним значением , но и дисперсией (и нам также придётся добавлять ковариацию, если число признаков больше 2). Но здесь всё изучается без меток.

Итак, вы понимаете идею, да?

И название этой модели — модель гауссовой смеси (GMM)

GMM и названия этих моделей…

Как это часто бывает, названия моделей имеют историческое происхождение. Они не всегда призваны подчёркивать связи между моделями, если они не встречаются вместе.

Разные исследователи, разные периоды, разные варианты использования… и в итоге мы получаем названия, которые иногда скрывают истинную структуру идей.

Здесь название «модель гауссовой смеси» просто означает, что данные представлены в виде смеси нескольких гауссовых распределений .

Если следовать той же логике наименования, что и в случае k-средних, было бы понятнее назвать его как-то вроде k-Gaussian Mixture.

Потому что на практике вместо того, чтобы использовать только среднее значение, мы добавляем дисперсию. Можно было бы просто использовать расстояние Махаланобиса или другое взвешенное расстояние, использующее как среднее значение, так и дисперсию. Но гауссово распределение даёт нам вероятности, которые легче интерпретировать.

Поэтому мы выбираем число k гауссовых компонент.

И, кстати, GMM — не единственный.

Фактически, вся система машинного обучения появилась гораздо позже, чем многие из входящих в неё моделей. Большинство этих методов изначально были разработаны в области статистики, обработки сигналов, эконометрики или распознавания образов.

Затем, гораздо позже, возникла область, которую мы сейчас называем «машинным обучением», и объединила все эти модели под одной крышей. Но названия остались прежними.

Поэтому сегодня мы используем смесь лексики, пришедшей из разных эпох, разных сообществ и с разными намерениями.

Вот почему взаимосвязи между моделями не всегда очевидны, если смотреть только на названия.

Если бы нам пришлось переименовать все в современном, унифицированном стиле машинного обучения , картина была бы гораздо яснее:

  • GMM станет k-гауссовой кластеризацией
  • QDA станет ближайшим гауссовым классификатором
  • LDA, то есть ближайший гауссовский классификатор с одинаковой дисперсией по классам.

И вдруг появляются все ссылки:

  • k-средних ↔ Ближайший центроид
  • GMM ↔ Ближайший гауссов (QDA)

Вот почему GMM так естественен после K-средних. Если K-средние группируют точки по ближайшему центроиду, то GMM группирует их по наиболее близкой гауссовой форме .

Зачем посвятил целый раздел обсуждению имен?

Ну, правда в том, что, поскольку мы уже рассмотрели алгоритм k-средних и уже осуществили переход от классификатора ближайших центроидов к QDA, мы уже знаем все об этом алгоритме, и алгоритм обучения не изменится…

А как НАЗЫВАЕТСЯ этот алгоритм обучения?

О, алгоритм Ллойда.

На самом деле, до того, как алгоритм k-средних получил такое название, он был известен просто как алгоритм Ллойда, опубликованный Стюартом Ллойдом в 1957 году . Лишь позже сообщество машинного обучения изменило его на «k-средние».

А этот алгоритм манипулировал только средствами, так что нам нужно другое название, верно?

Видите, к чему это приводит: алгоритм максимизации ожиданий!

EM — это просто общая форма идеи Ллойда. Ллойд обновляет средние значения, EM обновляет всё: средние значения, дисперсии, веса и вероятности.

Итак, вы уже всё знаете о ГММ!

Но поскольку моя статья называется «GMM в Excel», я не могу закончить ее здесь…

GMM в 1 измерении

Начнем с этого простого набора данных, того же самого, который мы использовали для k-средних: 1, 2, 3, 11, 12, 13

Хм, у двух гауссианов будут одинаковые дисперсии. Так что подумайте о том, чтобы поиграться с другими числами в Excel!

И нам, естественно, нужно 2 кластера .

Вот различные шаги.

Инициализация

Начнем с предположений относительно средних значений, дисперсий и весов.

0d17464e04cb96daa4ee6757926c3bac

Шаг ожидания (шаг E)

Для каждой точки мы вычисляем вероятность ее принадлежности к каждой гауссиане.

1eb3e0c53af5914135628ec62ab0a35e

Шаг максимизации (M-шаг)

Используя эти вероятности, мы обновляем средние значения, дисперсии и веса.

7b15a8e1d788e7766f9751547035d6dd

Итерация

Повторяем E-шаг и M-шаг до тех пор, пока параметры не стабилизируются.

91e9461aacfe449c76ec0bdf69976c0f

Каждый шаг становится чрезвычайно простым, как только формулы становятся видимыми.
Вы увидите, что EM — это не что иное, как обновление средних значений, дисперсий и вероятностей.

Мы также можем провести некоторую визуализацию, чтобы увидеть, как кривые Гаусса движутся во время итераций.

Вначале две гауссовы кривые сильно перекрываются, поскольку начальные средние значения и дисперсии являются всего лишь догадками.

Кривые медленно разделяются, выравнивают свою ширину и, наконец, точно совпадают с двумя группами точек.

Построив гауссовы кривые на каждой итерации, вы можете буквально наблюдать, как модель обучается:

  • средства скользят к центрам данных
  • дисперсии уменьшаются, чтобы соответствовать разбросу каждой группы
  • перекрытие исчезает
  • окончательные формы соответствуют структуре набора данных

Эта визуальная эволюция чрезвычайно полезна для развития интуиции. Как только вы видите движение кривых, электромагнетизм перестаёт быть абстрактным алгоритмом. Он становится динамическим процессом, который можно отслеживать шаг за шагом.

5eebddd2a557dea9e055d6869a646c13

GMM в 2 измерениях

Логика точно такая же, как в одномерном пространстве. Ничего принципиально нового. Мы просто расширяем формулы…

Вместо одного объекта на точку теперь у нас два .

Каждый гауссианец теперь должен узнать:

  • среднее для x1
  • среднее для x2
  • дисперсия для x1
  • дисперсия для x2
  • И ковариационный член между двумя признаками.

После того как вы запишете формулы в Excel, вы увидите, что процесс остается точно таким же:

Ну, правда в том, что если взглянуть на скриншот, можно подумать: «Ого, какая длинная формула!» И это ещё не всё.

b44e13c7e717fc68bb6cb569e6f89dbc

Но не обманывайтесь. Формула получилась длинной только потому, что мы явно выписываем двумерную гауссову плотность :

  • одна часть для расстояния в x1
  • одна часть для расстояния в х2
  • ковариационный член
  • константа нормализации

Ничего больше.

Это просто формула плотности, расширенная по ячейкам.
Долго печатать, но вполне понятно, как только вы увидите структуру: взвешенное расстояние внутри экспоненты, деленное на определитель.

Так что да, формула выглядит громоздкой… но идея, лежащая в ее основе, чрезвычайно проста.

Заключение

Метод K-средних устанавливает жесткие границы.

GMM дает вероятности.

После того как формулы EM записаны в Excel, модель становится простой для понимания: средние значения меняются, дисперсии корректируются, а гауссовы функции естественным образом устанавливаются вокруг данных.

GMM — это всего лишь следующий логический шаг после k-средних, предлагающий более гибкий способ представления кластеров и их форм.

Источник: towardsdatascience.com

✅ Найденные теги: Excel, GMM, Адвент-календарь, машинное обучение

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Молот перед логотипом технологической компании с цветными квадратами.
Четыре символа: золото, стилизованная эмблема, каменное кольцо и змей, кусающий свой хвост.
Человек играет на скрипке на улице перед кирпичной стеной.
Протест против дата-центров, плакаты: "Вы не можете пить данные", "Вода — это жизнь".
dummy-img
Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.
ideipro logotyp
Руки режут свежий хлеб на деревянной доске.
Женщина с красными волосами смотрит через металлическую сферу на фоне кирпичной стены.
Image Not Found
Молот перед логотипом технологической компании с цветными квадратами.

Microsoft заблокировала слово «Микрослоп» на своём Discord-сервере и ввела ограничения

Изображение, созданное нейросетью Похоже, Microsoft не очень нравится, когда её инвестиции в искусственный интеллект и активное использование нейросетей называют «слопом» — это стало понятно из-за одного запрета, введённого в официальном Discord-сервере сервиса Copilot. Участники указанного сервера обратили…

Мар 5, 2026
Четыре символа: золото, стилизованная эмблема, каменное кольцо и змей, кусающий свой хвост.

Есть здесь люди, которые искренне считают, что установив макс, они увеличили суверенитет страны?

«В виртуальных дискуссиях уже давно затрагивают тему мессенджера MAX, представляя его как просто еще одну платформу для коммуникации. Однако, как нам кажется, мало кто уделил должное внимание его корням, уровню безопасности и непонятным причинам, по которым он…

Мар 5, 2026
dummy-img

Спрос на хранилища для ИИ привёл к 24% росту прибыли производителей памяти NAND

Умные люди из аналитического агентства TrendForce провели анализ текущей ситуации производителей микросхем памяти NAND и пришли к выводу, что за последний квартал 2025 года их выручка прилично увеличилась, а показатели некоторых компаний прилично выделяются на фоне остальных.…

Мар 5, 2026
ideipro logotyp

Bitget Wallet интегрирует DT One для пополнения мобильной связи в более чем 170 странах

Bitget Wallet, приложение для повседневных финансов, объявил о партнерстве с DT One, которое позволит осуществлять пополнение мобильной связи напрямую внутри кошелька с использованием стейблкоинов, связывая ончейн-балансы с повседневными телеком-сервисами. Благодаря инфраструктуре DT One пользователи Bitget Wallet получают…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых