Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

«Адвент-календарь» машинного обучения. День 4: k-средние в Excel

Дек 5, 2025 0

Содержание

Как реализовать алгоритм обучения, который наконец станет похож на «настоящее» машинное обучение

Делиться

Добро пожаловать в четвертый день Адвент-календаря машинного обучения.

В течение первых трех дней мы изучали дистанционные модели контролируемого обучения:

регрессор k-NN ,
классификатор k-NN ,
и классификатор ближайшего центроида .

Во всех этих моделях идея была одинаковой: мы измеряем расстояния и определяем выходные данные на основе ближайших точек или ближайших центров.

Сегодня мы придерживаемся той же идеи. Но используем расстояния без учителя: метод k-средних .

Теперь один вопрос для тех, кто уже знаком с этим алгоритмом: на какую модель больше похож алгоритм k-means, на классификатор k-NN или на классификатор ближайшего центроида?

И если вы помните, во всех моделях, которые мы видели до сих пор, на самом деле не было фазы «обучения» или настройки гиперпараметров.

Для k-NN обучение вообще не требуется.

Для LDA, QDA или GNB обучение сводится лишь к вычислению средних значений и дисперсий. Кроме того, здесь нет реальных гиперпараметров.

Теперь с помощью k-средних мы реализуем алгоритм обучения, который наконец станет похож на «настоящее» машинное обучение.

Начнём с небольшого одномерного примера. Затем перейдём к двухмерному.

Цель метода k-средних

В обучающем наборе данных начальные метки отсутствуют .

Целью метода k-средних является создание осмысленных меток путем группировки точек, расположенных близко друг к другу.

Давайте посмотрим на иллюстрацию ниже. Вы можете ясно увидеть две группы точек. Каждый центроид (красный и зелёный квадраты) находится в центре своего кластера, и каждая точка соответствует ближайшему к нему центроиду.

Это дает очень наглядное представление о том, как метод k-средних обнаруживает структуру, используя только расстояния.

И здесь k означает количество центров, которые мы пытаемся найти.

Теперь ответим на вопрос: к какому алгоритму ближе k-means, к классификатору k-NN или к классификатору ближайшего центроида?

Не позволяйте букве k в аббревиатурах k-NN и k-means вводить вас в заблуждение.
Они не означают одно и то же:

в k-NN k — это число соседей, а не число классов;
в алгоритме k-средних k — число центроидов.

Метод K-средних гораздо ближе к классификатору ближайшего центроида .

Обе модели представлены центроидами , и для нового наблюдения мы просто вычисляем расстояние до каждого центроида, чтобы решить, к какому из них он принадлежит.

Разница, конечно, состоит в том, что в классификаторе «Ближайший центроид» мы уже знаем центроиды, поскольку они берутся из помеченных классов.

В алгоритме k-средних мы не знаем центроидов. Вся цель алгоритма — найти подходящие центроиды непосредственно из данных.

Проблема бизнеса совершенно иная: вместо того, чтобы предсказывать этикетки, мы пытаемся их создавать .

В алгоритме k-средних значение k (количество центроидов) неизвестно. Поэтому оно становится гиперпараметром , который можно настраивать.

k-means только с одной особенностью

Начнём с небольшого одномерного примера, чтобы всё было видно на одной оси. И выберем значения настолько тривиально, что сразу увидим два центроида.

1, 2, 3, 11, 12, 13

Да, 2 и 12.

Но откуда компьютеру знать? Машина будет «учиться», угадывая шаг за шагом.

Вот алгоритм, называемый алгоритмом Ллойда .

Мы реализуем это в Excel с помощью следующего цикла:

выбрать начальные центроиды
вычислить расстояние от каждой точки до каждого центроида
присвоить каждой точке ближайший центроид
пересчитать центроиды как среднее значение точек в каждом кластере
повторяйте шаги 2–4, пока центроиды не перестанут двигаться

1. Выберите начальные центроиды

Выберите два начальных центра, например:

с_1 = 2,5
с_2 = 3

Они должны находиться в пределах диапазона данных (от 1 до 13).

2. Вычислить расстояния

Для каждой точки данных x:

вычислить расстояние до c_1,
вычислить расстояние до c_2.

Обычно мы используем абсолютное расстояние в 1D.

Теперь у нас есть два значения расстояния для каждой точки.

3. Назначить кластеры

Для каждой точки:

сравните два расстояния,
назначить кластер наименьшего из них (1 или 2).

В Excel это простая логика, основанная на ЕСЛИ или МИН.

4. Вычислить новые центроиды

Для каждого кластера:

возьмите баллы, присвоенные этому кластеру,
вычислить их среднее значение,
это среднее значение становится новым центроидом.

5. Повторять до достижения сходимости.

Теперь в Excel, благодаря формулам, мы можем просто вставить новые значения центроидов в ячейки исходных центроидов.

Обновление происходит мгновенно, и после нескольких повторений вы увидите, что значения перестают меняться. Это означает, что алгоритм сошелся.

Мы также можем записывать каждый шаг в Excel, чтобы видеть, как центроиды и кластеры меняются с течением времени.

k-средних с двумя признаками

Теперь воспользуемся двумя характеристиками. Процесс тот же самый: мы просто используем евклидово расстояние в двумерном пространстве.

Вы можете либо скопировать и вставить новые центроиды как значения (обновив всего несколько ячеек),

или вы можете отобразить все промежуточные шаги , чтобы увидеть полную эволюцию алгоритма.

Визуализация движущихся центроидов в Excel

Чтобы сделать процесс более наглядным, полезно создать графики, показывающие движение центроидов.

К сожалению, Excel или Google Таблицы не идеальны для такого рода визуализации, и таблицы данных быстро становятся сложными для организации.

Если вы хотите увидеть полный пример с подробными графиками, вы можете прочитать эту статью, которую я написал почти три года назад, где наглядно показан каждый шаг движения центроида.

Как вы можете видеть на рисунке, рабочий лист стал совершенно неорганизованным, особенно по сравнению с предыдущей таблицей, которая была очень простой.

Выбор оптимального k: метод локтя

Итак, теперь можно попробовать k = 2 и k = 3 в нашем случае и вычислить инерцию для каждого из них. Затем мы просто сравниваем значения.

Мы даже можем начать с k=1.

Для каждого значения k:

мы запускаем k-Means до сходимости,
вычислить инерцию , которая представляет собой сумму квадратов расстояний между каждой точкой и назначенным ей центроидом.

В Excel:

Для каждой точки возьмите расстояние до ее центроида и возведите его в квадрат.
Сложите все эти квадраты расстояний.
Это дает инерцию для этого k.

Например:

при k = 1 центроид — это просто общее среднее значение x1 и x2,
для k = 2 и k = 3 мы берем сходящиеся центроиды из листов, на которых вы запустили алгоритм.

Затем мы можем построить график инерции как функции k, например, для (k = 1, 2, 3).

Для этого набора данных

от 1 до 2 инерция сильно падает,
от 2 до 3 улучшение гораздо меньше.

«Локоть» — это значение k, после которого уменьшение инерции становится незначительным. В данном примере это означает, что k = 2 достаточно.

Заключение

Алгоритм K-средних очень интуитивно понятен, если вы увидите его пошагово в Excel.

Мы начинаем с простых центроидов, вычисляем расстояния, присваиваем точки, обновляем центроиды и повторяем. Теперь мы видим, как «машины обучаются», верно?

Что ж, это только начало: мы увидим, что разные модели «учатся» по-разному.

А вот и переход к завтрашней статье: неконтролируемая версия классификатора ближайшего центроида — это действительно k-средних .

Так что же представляет собой неконтролируемая версия LDA или QDA ? Мы ответим на этот вопрос в следующей статье.

Источник: towardsdatascience.com

✅ Найденные теги: Excel, k-средние, Адвент-календарь, машинное обучение

Метки:

ПРЕДЫДУЩАЯ ЗАПИСЬ

05.12.2025

Юридический стартап Harvey в области искусственного интеллекта подтверждает оценку в 8 миллиардов долларов

СЛЕДУЮЩАЯ ЗАПИСЬ

05.12.2025

Долгое время сознание считалось исключительным даром человека, а возможно — еще нескольких видов млекопитающих

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

ИИ-микрофон Echomic превращает речь в текст

Методология облучения 1-гексаноловых растворов: этапы исследования и анализ.

Agentic RAG против Classic RAG: от конвейера к контуру управления

Uber, Wayve и Nissan планируют запустить сервис роботакси в Токио в этом году.

Врачи играют все более важную роль в оценке инструментов искусственного интеллекта для здравоохранения | MobiHealthNews

Топ-7 фреймворков для оркестрации агентов ИИ

Схема взаимосвязей различных эмодзи, сгруппированных по категориям с животными, символами и лицами.

Компания SpaceX может избежать экологических проверок, развернув миллион спутников.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

ИИ-микрофон Echomic превращает речь в текст

Смарт-микрофон Echomic с искусственным интеллектом — это удобный инструмент для записи голоса, преобразования его в текст и управления мультимедийными задачами. Новинка спроектирована как компактный микрофон, которая крепится на одежду, чтобы захватывать голос чисто и без лишнего шума.…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Разработан подход к выявлению облученных пищевых продуктов

Этапы исследования © Molecules Учёные НИИ ядерной физики, физического и химического факультетов МГУ изучили влияние ионизирующего излучения на образование летучих органических соединений, содержащихся в продуктах питания. Исследование имеет важное значение для разработки уникальных биохимических маркеров радиационной обработки…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Agentic RAG против Classic RAG: от конвейера к контуру управления

Практическое руководство по выбору между однопроходными конвейерами и адаптивными циклами извлечения данных в зависимости от сложности, стоимости и требований к надежности вашего варианта использования. Делиться Введение: Почему это сравнение важно RAG начинала с простой цели: обосновывать результаты…

ЧИТАТЬ

Мар 13, 2026

Архив рубрики ~Лента новостей~

Uber, Wayve и Nissan планируют запустить сервис роботакси в Токио в этом году.

Вкратце Источник изображений: Nissan Компания Wayve, занимающаяся разработкой программного обеспечения для беспилотных автомобилей и недавно привлекшая 1,2 миллиарда долларов инвестиций, объединяется с Uber и Nissan для запуска сервиса роботакси в Токио. Пилотный проект запланирован на конец 2026…

ЧИТАТЬ

Мар 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

«Адвент-календарь» машинного обучения. День 4: k-средние в Excel

Цель метода k-средних

k-means только с одной особенностью

1. Выберите начальные центроиды

2. Вычислить расстояния

3. Назначить кластеры

4. Вычислить новые центроиды

5. Повторять до достижения сходимости.

k-средних с двумя признаками

Визуализация движущихся центроидов в Excel

Выбор оптимального k: метод локтя

Заключение

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в