Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

«Адвент-календарь» машинного обучения. День 7: Классификатор дерева решений

Дек 7, 2025 0

Содержание

Как классификатор дерева решений выбирает свое первое разбиение

Делиться

В предыдущей статье мы рассмотрели, как регрессор дерева решений выбирает оптимальное разбиение, минимизируя среднеквадратичную ошибку (MSE) .

Сегодня, в седьмой день «Адвент-календаря» по машинному обучению, мы продолжаем тот же подход, но с классификатором дерева решений — классификационным аналогом вчерашней модели.

Быстрый интуитивный эксперимент с двумя простыми наборами данных

Начнем с очень небольшого пробного набора данных, который я сгенерировал, с одной числовой характеристикой и одной целевой переменной с двумя классами: 0 и 1.

Идея состоит в том, чтобы разбить набор данных на две части по одному правилу. Но вопрос в том: каким должно быть это правило? Какой критерий определяет, какое разделение лучше?

Теперь, даже если мы еще не знаем математику, мы уже можем взглянуть на данные и предположить возможные точки разделения.

А визуально это будет 8 или 12 , да?

Но вопрос в том, какой из них более подходит с численной точки зрения.

Если рассуждать интуитивно:

С разделением на 8 :
- левая сторона: нет ошибочной классификации
- правая сторона: одна ошибочная классификация
С разделением на 12 :
- правая сторона: нет ошибочной классификации
- левая сторона: две ошибочные классификации

Так что, очевидно, что разделение на 8 кажется более выгодным.

Теперь рассмотрим пример с тремя классами . Я добавил ещё немного случайных данных и создал три класса.

Здесь я обозначаю их 0, 1, 3 и располагаю их вертикально.

Но будьте осторожны: эти числа — всего лишь названия категорий , а не числовые значения. Их не следует интерпретировать как «упорядоченные».

Поэтому интуиция всегда такова: насколько однороден каждый регион после разделения?

Но визуально определить наилучший вариант сложнее.

Теперь нам нужен математический способ выразить эту идею.

Это как раз тема следующей главы.

Мера примеси как критерий разделения

В регрессоре дерева решений мы уже знаем:

Прогноз для региона представляет собой среднее значение целевого показателя.
Качество разделения измеряется с помощью MSE .

В классификаторе дерева решений:

Прогноз для региона — это класс большинства региона.
Качество разделения измеряется мерой примеси : коэффициентом Джини или энтропией .

Оба индекса входят в стандартную комплектацию учебников и доступны в scikit-learn. По умолчанию используется индекс Джини.

НО что же такое эта мера примеси на самом деле?

Если посмотреть на кривые Джини и энтропии , то они обе ведут себя одинаково:

Они равны 0, когда узел чистый (все образцы имеют один и тот же класс).
Они достигают своего максимума , когда классы равномерно смешаны (50 процентов на 50 процентов).
Кривая гладкая , симметричная и увеличивается с беспорядком.

Это существенное свойство любой меры примеси :

Уровень загрязнения низок, когда группы чистые, и высок, когда группы смешанные.

Поэтому мы будем использовать эти меры, чтобы решить, какой раскол создать.

Разделить с одной непрерывной функцией

Как и для регрессора дерева решений, мы будем следовать той же структуре.

Список всех возможных разделений

Точно так же, как в версии регрессора, с одной числовой характеристикой, единственными разбиениями, которые нам нужно проверить, являются средние точки между последовательными отсортированными значениями x.

Для каждого разделения вычислить примеси на каждой стороне

Возьмем разделенное значение, например, x = 5,5 .

Мы разделяем набор данных на две области:

Регион L: x < 5,5
Регион R: x ≥ 5,5

Для каждого региона:

Мы подсчитываем общее количество наблюдений.
Мы вычисляем примесь Джини
Наконец, мы вычисляем взвешенную примесь разделения

Выберите разделение с наименьшим содержанием примесей

Как в случае с регрессором:

Перечислите все возможные разделения
Вычислить примеси для каждого
Оптимальным считается разделение с минимальным количеством примесей.

Синтетическая таблица всех сплитов

Чтобы сделать все автоматически в Excel,
мы организуем все расчеты в одной таблице , где:

каждая строка соответствует одному кандидату-разделителю ,
для каждой строки мы вычисляем:
- Джини левого региона,
- Джини правого региона,
- и общий взвешенный коэффициент Джини для раскола.

Эта таблица дает ясный и компактный обзор всех возможных разделений,
а лучшим разделением будет просто то, у которого в последнем столбце наименьшее значение.

Многоклассовая классификация

До сих пор мы работали с двумя классами. Но примесь Джини естественным образом распространяется на три класса , и логика разделения остаётся прежней.

В структуре алгоритма ничего не меняется:

мы перечисляем все возможные разделения,
мы вычисляем примеси с каждой стороны,
мы берем средневзвешенное значение,
мы выбираем расщепление с наименьшим содержанием примесей.

Только формула примеси Джини становится немного длиннее.

Примесь Джини с тремя классами

Если область содержит пропорции p1, p2, p3

для трех классов примесь Джини составляет:

Та же идея, что и раньше:
регион считается «чистым», когда доминирует один класс,
и примесь становится больше, когда классы смешиваются.

Левый и правый регионы

Для каждого разделения:

Регион L содержит некоторые наблюдения классов 1, 2 и 3.
Регион R содержит оставшиеся наблюдения

Для каждого региона:

подсчитайте, сколько баллов принадлежит каждому классу
вычислить пропорции p1,p2,p3
вычислить примесь Джини, используя формулу выше

Все точно так же, как и в двоичном случае, только с одним дополнительным членом.

Сводная таблица для 3-классового разделения

Как и прежде, мы собираем все вычисления в одну таблицу:

каждая строка — это одно возможное разделение
мы считаем класс 1, класс 2, класс 3 слева
мы считаем класс 1, класс 2, класс 3 справа
мы вычисляем Джини (слева), Джини (справа) и взвешенный Джини

Дерево решений выбирает разделение с наименьшим взвешенным значением примеси .

Мы можем легко обобщить алгоритм до классов K, используя следующие формулы для вычисления индекса Джини или энтропии.

Насколько на самом деле различаются показатели примесей?

Мы всегда упоминаем в качестве критериев коэффициент Джини или энтропию, но действительно ли они различаются ? Глядя на математические формулы, некоторые могут сказать:

Ответ – не так уж и много.

Теоретически, почти во всех практических ситуациях:

Джини и Энтропия выбирают одно и то же разделение
Структура дерева почти идентична
Прогнозы те же.

Почему?

Потому что их кривые выглядят чрезвычайно похожими.

Они оба достигают пика при 50-процентном смешивании и падают до нуля при чистоте.

Единственное отличие — это форма кривой:

Функция Джини является квадратичной . Она наказывает за неправильную классификацию более линейно.
Энтропия — логарифмическая функция, поэтому она немного сильнее штрафует неопределенность вблизи 0,5.

Но на практике разница невелика, и это можно сделать в Excel!

Другие меры по измерению примесей?

Другой естественный вопрос: можно ли придумать/использовать другие меры?

Да, вы можете придумать свою собственную функцию, если:

Это 0, когда узел чистый.
Максимально , когда классы смешанные.
Он плавно и строго увеличивается в «беспорядке»

Например: Примесь = 4*p0*p1

Это ещё один допустимый показатель примеси. И он фактически равен индексу Джини , умноженному на константу, когда имеется всего два класса.

Итак, снова, это даёт те же самые расщепления . Если вы не уверены, вы можете

Вот еще несколько мер, которые можно использовать.

Упражнения в Excel

Тесты с другими параметрами и характеристиками

После создания первого разделения вы можете расширить свой файл:

Попробуйте энтропию вместо Джини
Попробуйте добавить категориальные признаки
Попробуйте построить следующий сплит
Попробуйте изменить максимальную глубину и понаблюдайте за недообучением и переобучением.
Попробуйте создать матрицу ошибок для прогнозов.

Эти простые тесты уже дают вам хорошее интуитивное представление о том, как ведут себя реальные деревья решений.

Реализации правил для набора данных о выживании на «Титанике»

Естественным последующим упражнением является воссоздание правил принятия решений для знаменитого набора данных о выживании на «Титанике» ( CC0 / Public Domain ).

Во-первых, мы можем начать только с двух характеристик: пола и возраста .

Реализация правил в Excel — долгий и немного утомительный процесс, но в этом-то и суть: он позволяет вам понять, как на самом деле выглядят правила принятия решений.

Они представляют собой не что иное, как последовательность операторов IF/ELSE , повторяющихся снова и снова.

Вот истинная природа дерева решений: простые правила, наложенные друг на друга.

Заключение

Реализация классификатора дерева решений в Excel на удивление доступна.

С помощью нескольких формул вы раскроете суть алгоритма:

список возможных разделений
вычислить примеси
выбрать самый чистый сплит

Этот простой механизм является основой более продвинутых ансамблевых моделей, таких как градиентные усиленные деревья , которые мы обсудим далее в этой серии.

И следите за новостями завтра, День 8 !

Источник: towardsdatascience.com

✅ Найденные теги: Адвент-календарь, дерево решений, классификатор, машинное обучение

Метки:

sledy dinozavrov vozrastom okolo 200 mln let obnaruzhili v kitae 3cb6fd2.jpg

ПРЕДЫДУЩАЯ ЗАПИСЬ

07.12.2025

Следы динозавров возрастом около 200 млн лет обнаружили в Китае

СЛЕДУЮЩАЯ ЗАПИСЬ

07.12.2025

Математика — изобретение или открытие?

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

«Адвент-календарь» машинного обучения. День 7: Классификатор дерева решений

Быстрый интуитивный эксперимент с двумя простыми наборами данных

Мера примеси как критерий разделения

Разделить с одной непрерывной функцией

Список всех возможных разделений

Для каждого разделения вычислить примеси на каждой стороне

Выберите разделение с наименьшим содержанием примесей

Синтетическая таблица всех сплитов

Многоклассовая классификация

Примесь Джини с тремя классами

Левый и правый регионы

Сводная таблица для 3-классового разделения

Насколько на самом деле различаются показатели примесей?

Другие меры по измерению примесей?

Упражнения в Excel

Тесты с другими параметрами и характеристиками

Реализации правил для набора данных о выживании на «Титанике»

Заключение

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в