Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

«Адвент-календарь» машинного обучения. День 5: GMM в Excel

Дек 5, 2025 0

Содержание

От k-средних до гауссовой смеси: понимание EM с помощью простых формул Excel

Делиться

В предыдущей статье мы исследовали кластеризацию на основе расстояний с использованием метода K-средних.

Сегодня мы сделаем еще один шаг: чтобы улучшить способ измерения расстояния, мы добавим дисперсию, чтобы получить расстояние Махаланобиса.

Итак, если k-Means является неконтролируемой версией классификатора ближайшего центроида , то возникает естественный вопрос:

Что такое неконтролируемая версия QDA?

Это означает, что, как и в случае QDA, каждый кластер теперь должен быть описан не только средним значением , но и дисперсией (и нам также придётся добавлять ковариацию, если число признаков больше 2). Но здесь всё изучается без меток.

Итак, вы понимаете идею, да?

И название этой модели — модель гауссовой смеси (GMM) …

GMM и названия этих моделей…

Как это часто бывает, названия моделей имеют историческое происхождение. Они не всегда призваны подчёркивать связи между моделями, если они не встречаются вместе.

Разные исследователи, разные периоды, разные варианты использования… и в итоге мы получаем названия, которые иногда скрывают истинную структуру идей.

Здесь название «модель гауссовой смеси» просто означает, что данные представлены в виде смеси нескольких гауссовых распределений .

Если следовать той же логике наименования, что и в случае k-средних, было бы понятнее назвать его как-то вроде k-Gaussian Mixture.

Потому что на практике вместо того, чтобы использовать только среднее значение, мы добавляем дисперсию. Можно было бы просто использовать расстояние Махаланобиса или другое взвешенное расстояние, использующее как среднее значение, так и дисперсию. Но гауссово распределение даёт нам вероятности, которые легче интерпретировать.

Поэтому мы выбираем число k гауссовых компонент.

И, кстати, GMM — не единственный.

Фактически, вся система машинного обучения появилась гораздо позже, чем многие из входящих в неё моделей. Большинство этих методов изначально были разработаны в области статистики, обработки сигналов, эконометрики или распознавания образов.

Затем, гораздо позже, возникла область, которую мы сейчас называем «машинным обучением», и объединила все эти модели под одной крышей. Но названия остались прежними.

Поэтому сегодня мы используем смесь лексики, пришедшей из разных эпох, разных сообществ и с разными намерениями.

Вот почему взаимосвязи между моделями не всегда очевидны, если смотреть только на названия.

Если бы нам пришлось переименовать все в современном, унифицированном стиле машинного обучения , картина была бы гораздо яснее:

GMM станет k-гауссовой кластеризацией
QDA станет ближайшим гауссовым классификатором
LDA, то есть ближайший гауссовский классификатор с одинаковой дисперсией по классам.

И вдруг появляются все ссылки:

k-средних ↔ Ближайший центроид
GMM ↔ Ближайший гауссов (QDA)

Вот почему GMM так естественен после K-средних. Если K-средние группируют точки по ближайшему центроиду, то GMM группирует их по наиболее близкой гауссовой форме .

Зачем посвятил целый раздел обсуждению имен?

Ну, правда в том, что, поскольку мы уже рассмотрели алгоритм k-средних и уже осуществили переход от классификатора ближайших центроидов к QDA, мы уже знаем все об этом алгоритме, и алгоритм обучения не изменится…

А как НАЗЫВАЕТСЯ этот алгоритм обучения?

О, алгоритм Ллойда.

На самом деле, до того, как алгоритм k-средних получил такое название, он был известен просто как алгоритм Ллойда, опубликованный Стюартом Ллойдом в 1957 году . Лишь позже сообщество машинного обучения изменило его на «k-средние».

А этот алгоритм манипулировал только средствами, так что нам нужно другое название, верно?

Видите, к чему это приводит: алгоритм максимизации ожиданий!

EM — это просто общая форма идеи Ллойда. Ллойд обновляет средние значения, EM обновляет всё: средние значения, дисперсии, веса и вероятности.

Итак, вы уже всё знаете о ГММ!

Но поскольку моя статья называется «GMM в Excel», я не могу закончить ее здесь…

GMM в 1 измерении

Начнем с этого простого набора данных, того же самого, который мы использовали для k-средних: 1, 2, 3, 11, 12, 13

Хм, у двух гауссианов будут одинаковые дисперсии. Так что подумайте о том, чтобы поиграться с другими числами в Excel!

И нам, естественно, нужно 2 кластера .

Вот различные шаги.

Инициализация

Начнем с предположений относительно средних значений, дисперсий и весов.

Шаг ожидания (шаг E)

Для каждой точки мы вычисляем вероятность ее принадлежности к каждой гауссиане.

Шаг максимизации (M-шаг)

Используя эти вероятности, мы обновляем средние значения, дисперсии и веса.

Итерация

Повторяем E-шаг и M-шаг до тех пор, пока параметры не стабилизируются.

Каждый шаг становится чрезвычайно простым, как только формулы становятся видимыми.
Вы увидите, что EM — это не что иное, как обновление средних значений, дисперсий и вероятностей.

Мы также можем провести некоторую визуализацию, чтобы увидеть, как кривые Гаусса движутся во время итераций.

Вначале две гауссовы кривые сильно перекрываются, поскольку начальные средние значения и дисперсии являются всего лишь догадками.

Кривые медленно разделяются, выравнивают свою ширину и, наконец, точно совпадают с двумя группами точек.

Построив гауссовы кривые на каждой итерации, вы можете буквально наблюдать, как модель обучается:

средства скользят к центрам данных
дисперсии уменьшаются, чтобы соответствовать разбросу каждой группы
перекрытие исчезает
окончательные формы соответствуют структуре набора данных

Эта визуальная эволюция чрезвычайно полезна для развития интуиции. Как только вы видите движение кривых, электромагнетизм перестаёт быть абстрактным алгоритмом. Он становится динамическим процессом, который можно отслеживать шаг за шагом.

GMM в 2 измерениях

Логика точно такая же, как в одномерном пространстве. Ничего принципиально нового. Мы просто расширяем формулы…

Вместо одного объекта на точку теперь у нас два .

Каждый гауссианец теперь должен узнать:

среднее для x1
среднее для x2
дисперсия для x1
дисперсия для x2
И ковариационный член между двумя признаками.

После того как вы запишете формулы в Excel, вы увидите, что процесс остается точно таким же:

Ну, правда в том, что если взглянуть на скриншот, можно подумать: «Ого, какая длинная формула!» И это ещё не всё.

Но не обманывайтесь. Формула получилась длинной только потому, что мы явно выписываем двумерную гауссову плотность :

одна часть для расстояния в x1
одна часть для расстояния в х2
ковариационный член
константа нормализации

Ничего больше.

Это просто формула плотности, расширенная по ячейкам.
Долго печатать, но вполне понятно, как только вы увидите структуру: взвешенное расстояние внутри экспоненты, деленное на определитель.

Так что да, формула выглядит громоздкой… но идея, лежащая в ее основе, чрезвычайно проста.

Заключение

Метод K-средних устанавливает жесткие границы.

GMM дает вероятности.

После того как формулы EM записаны в Excel, модель становится простой для понимания: средние значения меняются, дисперсии корректируются, а гауссовы функции естественным образом устанавливаются вокруг данных.

GMM — это всего лишь следующий логический шаг после k-средних, предлагающий более гибкий способ представления кластеров и их форм.

Источник: towardsdatascience.com

✅ Найденные теги: Excel, GMM, Адвент-календарь, машинное обучение

Метки:

ПРЕДЫДУЩАЯ ЗАПИСЬ

05.12.2025

От OCR до агентского извлечения документов: взгляд на эволюцию интеллектуального анализа документов

СЛЕДУЮЩАЯ ЗАПИСЬ

05.12.2025

Apple создает альтернативу диффузионным нейросетям

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Молот перед логотипом технологической компании с цветными квадратами.

Четыре символа: золото, стилизованная эмблема, каменное кольцо и змей, кусающий свой хвост.

Человек играет на скрипке на улице перед кирпичной стеной.

Протест против дата-центров, плакаты: "Вы не можете пить данные", "Вода — это жизнь".

Силуэт лица с диаграммой связи на голове, символизирующий думы и идеи.

Руки режут свежий хлеб на деревянной доске.

Женщина с красными волосами смотрит через металлическую сферу на фоне кирпичной стены.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

Microsoft заблокировала слово «Микрослоп» на своём Discord-сервере и ввела ограничения

Изображение, созданное нейросетью Похоже, Microsoft не очень нравится, когда её инвестиции в искусственный интеллект и активное использование нейросетей называют «слопом» — это стало понятно из-за одного запрета, введённого в официальном Discord-сервере сервиса Copilot. Участники указанного сервера обратили…

ЧИТАТЬ

Мар 5, 2026

Архив рубрики ~Лента новостей~

Есть здесь люди, которые искренне считают, что установив макс, они увеличили суверенитет страны?

«В виртуальных дискуссиях уже давно затрагивают тему мессенджера MAX, представляя его как просто еще одну платформу для коммуникации. Однако, как нам кажется, мало кто уделил должное внимание его корням, уровню безопасности и непонятным причинам, по которым он…

ЧИТАТЬ

Мар 5, 2026

Архив рубрики ~Лента новостей~

Спрос на хранилища для ИИ привёл к 24% росту прибыли производителей памяти NAND

Умные люди из аналитического агентства TrendForce провели анализ текущей ситуации производителей микросхем памяти NAND и пришли к выводу, что за последний квартал 2025 года их выручка прилично увеличилась, а показатели некоторых компаний прилично выделяются на фоне остальных.…

ЧИТАТЬ

Мар 5, 2026

Архив рубрики ~Лента новостей~

Bitget Wallet интегрирует DT One для пополнения мобильной связи в более чем 170 странах

Bitget Wallet, приложение для повседневных финансов, объявил о партнерстве с DT One, которое позволит осуществлять пополнение мобильной связи напрямую внутри кошелька с использованием стейблкоинов, связывая ончейн-балансы с повседневными телеком-сервисами. Благодаря инфраструктуре DT One пользователи Bitget Wallet получают…

ЧИТАТЬ

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

«Адвент-календарь» машинного обучения. День 5: GMM в Excel

GMM и названия этих моделей…

GMM в 1 измерении

Инициализация

Шаг ожидания (шаг E)

Шаг максимизации (M-шаг)

Итерация

GMM в 2 измерениях

Заключение

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в