Как математически выбрать оптимальные интервалы для вашей гистограммы
Оптимальное разрешение в гистограммах: строгий байесовский подход к аппроксимации плотности.
Делиться

Абстрактный
Задумывались ли вы когда-нибудь о том, как выбрать ячейки для гистограммы? Задавали ли вы себе вопрос, существуют ли более глубокие причины для выбора, выходящие за рамки просто красивого внешнего вида? Хотя гистограммы являются наиболее фундаментальным инструментом визуализации данных, настройка их разрешения важна, особенно когда сама гистограмма используется для дальнейшего анализа. Гистограммы часто вычисляются для визуализации плотности данных. В этой статье мы рассмотрим математические аспекты подгонки плотности, в частности, как ячейки должны уменьшаться по мере роста нашего набора данных. Вдохновленные смежными областями, такими как теория возмущений в физике и разложения Тейлора в математике, мы найдем строгий метод построения плотностей.
Все изображения предоставлены автором.
Фон
Приближения
Принцип прост: чем больше данных, тем больше деталей вы сможете увидеть. Если вы рассматриваете выборку из десяти наблюдений, то, скорее всего, вам понадобятся только два или три широких интервала, прежде чем ваша визуализация превратится в разреженное скопление пустых промежутков. Но если у вас десять миллионов наблюдений, эти широкие интервалы начинают напоминать пикселизированную фотографию низкого разрешения. Вам нужно «приблизить» данные, увеличив количество интервалов. Однако вопрос в том: как именно следует масштабировать это разрешение?
В физике, когда мы сталкиваемся с системой, слишком сложной для точного решения, мы часто обращаемся к теории возмущений. В квантовой электродинамике (КЭД), например, мы аппроксимируем сложные взаимодействия, разлагая их по малой константе связи, такой как заряд электрона e . Эта «сила взаимодействия» обеспечивает естественную иерархию для наших приближений. Но для гистограммы, что является аналогичным «зарядом»? Существует ли фундаментальный параметр, который управляет взаимодействием между нашими дискретными точками данных и лежащим в основе распределением, которое мы пытаемся оценить?
Математика предлагает другой путь: разложение Тейлора. Если предположить, что лежащая в основе функция плотности достаточно гладкая (аналитическая), мы можем описать её локально, используя её производные. Это кажется многообещающим направлением, поскольку можно показать, что производные более высоких порядков обращаются в нуль. Хотя мы можем захотеть принять ограничение на аналитические распределения, неясно, как это приводит к определённому размеру интервала.
В качестве альтернативы, мы можем рассматривать эту проблему как разложение по базисным функциям. Подобно тому, как мы можем представить кусочно-непрерывную функцию с помощью преобразования Фурье или полиномов Лежандра, мы можем рассматривать интервалы гистограммы как набор базисных функций. Используя такой подход, мы могли бы аппроксимировать функцию с помощью L2. Но этот подход вносит свои собственные сложности. Как эффективно вычислить коэффициенты для этих функций? И что более важно, как удовлетворить физическим ограничениям функции плотности вероятности? В отличие от общего ряда Фурье, функция плотности должна быть строго положительно определенной и нормированной к единице. Далее мы увидим, что метод, полученный из теории информации, имеет схожие аспекты с разложением по базисным функциям.
Теория информации
Априорные и апостериорные вероятности
Для ознакомления с байесовской статистикой или теорией информации читателю рекомендуется обратиться к работе (Мерфи, 2022). В байесовском подходе модель P(X|θ)P(X|theta), где X — наблюдаемые величины, которые мы хотим смоделировать, а θtheta — наши параметры, также содержит априорное распределение 𝑃(𝜃|ℳ), отражающее наше представление о распределении до начала наблюдений за данными. После того, как данные были получены, мы можем оценить апостериорное распределение P(θ|X)P(theta | X).
𝑃(𝜃|𝑋) = 𝑃(𝑋|𝜃)𝑃(𝜃|ℳ)/𝑃(𝑋)
Эта процедура математически элегантна, поскольку на 100% защищена от переобучения. Однако она требует строгой дисциплины: нам не разрешается выбирать модель или априорное распределение после ознакомления с данными. Если мы используем данные для определения структуры модели, мы нарушаем лежащую в основе логику вывода.
Наиболее вероятная модель, учитывая весовые коэффициенты данных и модели.
Качество модели можно оценить, рассматривая её неожиданность (см., например, (Vries, 2026)).
log 𝑃(𝑋|ℳ) = −surprisal = точность – сложность
Модели с избыточным количеством параметров (поскольку может возникнуть соблазн включить всевозможные гипотетические взаимодействия) могут достичь невероятной точности, но их «убивает» собственная сложность. Идеальная модель — это не самая подробная модель; это та, которая охватывает наибольшее количество информации с наименьшим количеством ненужного «багажа».
При рассмотрении набора моделей можно вычислить вероятность каждой модели в сравнении с рассматриваемыми моделями.
𝑃(ℳ𝑖 ∣ 𝑋) ~ 𝑃(𝑋 | ℳ𝑖) 𝑃(ℳ𝑖 )
Заманчиво просто выбрать модель с наибольшей вероятностью и двигаться дальше. Но такой подход «победитель получает всё» сопряжен с рисками:
- Статистические флуктуации: данные 𝑋 могут содержать случайную погрешность, из-за которой неоптимальная модель временно выглядит лучше.
- Влияние множества факторов: иногда сумма вероятностей множества «менее вероятных» моделей фактически перевешивает вероятность единственной «наилучшей» модели.
Поэтому более надежным подходом является перенос всех моделей, взвешивая их по вероятности. Важно отметить, что это не «смесь» различных истин; мы по-прежнему предполагаем, что только одна модель действительно верна, но используем полное распределение возможностей, чтобы учесть собственную неопределенность.
Плотности
Плотность с использованием байесовского подхода
Для рассмотрения плотности как формальной модели мы рассматриваем каждый из ее 𝐾 интервалов как параметр. В частности, каждому интервалу мы присваиваем вес wkw_k, представляющий вероятность попадания точки данных в этот интервал. Поскольку сумма всех вероятностей должна равняться единице (∑kwk=1sum_k w_k=1), плотность с 𝐾 интервалами определяется 𝐾 −1 независимыми параметрами, такие модели также называются смесями. В нашей байесовской модели нам необходимо присвоить этим весам априорное распределение. Учитывая, что мы имеем дело с категориальными пропорциями, сумма которых должна равняться единице, распределение Дирихле является математически естественным выбором.
Выбор гиперпараметров
Распределение Дирихле управляется гиперпараметрами, часто обозначаемыми как 𝛼. Эти значения представляют собой наши «псевдо-счетчики» — по сути, то, как, по нашему мнению, выглядит плотность до того, как мы…
мы даже видели первую точку данных. Когда мы предполагаем плоское априорное распределение (где доказательство 𝑃(𝑋) постоянно), появляются две основные стратегии выбора 𝛼:
- 𝛼 = 1/𝐾 (Разреженный выбор): Этот вариант часто используется, когда ожидается высокая концентрация данных. Он априори предполагает, что большинство ячеек будут пустыми, что делает его априорным распределением, способствующим разреженности.
- α = 1 (равномерный выбор): Также известный как плоское или лапласовское априорное распределение, он предполагает, что каждое возможное распределение весов одинаково вероятно. По сути, он добавляет одно «виртуальное» наблюдение к каждому интервалу до поступления реальных данных.
Для построения стандартной плотности вероятности второй вариант 𝛼 = 1 часто является наиболее естественным. Он отражает нейтральную отправную точку, где мы предполагаем, что данные равномерно распределены по интервалу, пока данные не докажут обратное.
Определив таким образом интервалы, мы преобразовали «пикселизацию» плотности в строгую модель. Теперь у нас есть фиксированный набор параметров (веса 𝐾 − 1) и четкое априорное распределение (𝛼 = 1). Следующий шаг — использовать данные для определения оптимального числа интервалов 𝐾, сбалансировав точность подгонки со сложностью параметров.
Пример
Пожалуйста, ознакомьтесь с данными на рисунке ниже:

При использовании 8 контейнеров получаем:

Как видно из этой плотности, крайний правый интервал находится выше нуля, хотя в этом интервале отсутствовали какие-либо точки данных. Это результат байесовского подхода, который оценивает предполагаемую плотность на основе нашего априорного предположения и наблюдаемых данных.
Подводя итог, мы получили плотность, используя байесовский подход. Мы определили априорное распределение 𝑃(𝜃), отражающее наше ожидание равномерной плотности. Затем мы взяли данные и вычислили апостериорное распределение 𝑃(𝜃|𝑋), лежащее в основе полученной плотности.
Взвешенные плотности
Используя подход из предыдущего раздела, мы можем построить плотности распределения, используя 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 и 1024 интервала. Большее количество интервалов обеспечивает более точное соответствие данным, но также вносит дополнительные сложности. Как обсуждалось в предыдущем разделе, точность и сложность можно использовать для вычисления подтверждения. Рассматривая каждую плотность распределения как модель, мы можем вычислить вероятность ее истинности по сравнению с набором рассматриваемых нами моделей. Это дает рисунок ниже:

В предыдущем разделе обсуждалось, что можно выбрать «лучшую» модель, которой в данном случае будет использование 8 интервалов. Однако безопаснее взять взвешенную сумму по всем моделям.
выход:

Важно понимать, что с байесовской точки зрения это лучшее, что мы можем сделать. Также обратите внимание, что на этом графике присутствует плотность в 1024 интервалах. Наконец, можно доказать, что плотности более высоких порядков N будут уменьшаться.
Плотности с неравными интервалами
Полученная выше плотность выглядит несколько блочной, что объясняется использованием равных интервалов. Существуют и другие варианты, например, случайное разбиение (с компенсацией априорного распределения). В результате получается график, представленный ниже:

Плотности с указанием погрешностей.
Теперь, чтобы завершить построение плотностей, может быть интересно визуализировать нашу неопределенность в этих плотностях. Хотя вычисление стандартного отклонения плотности является численно затратным, оно удивительно простое (Ф. Пийлман, 2023).
σP(x|X)2=P(x|X)(P(x|x,X)−P(x|X))sigma_{P(x|X)}^2 = P(x|X) left( P(x|{x,X}) – P(x|X) right)
В результате получаются следующие значения плотности:


Выводы
Мы начали с простого вопроса: существует ли математическое обоснование для выбора интервалов в гистограмме? Поскольку концепция интервалов по своей сути связывает точки данных с плотностью, мы изучили, как это работает.
выбрать интервалы для определения плотности.
Используя байесовский подход (теорию информации), можно подгонять плотности распределения, не опасаясь переобучения (слишком большого количества интервалов, отображающих слишком много деталей). Хотя можно вычислить «оптимальную» ширину интервала, мы увидели, что:
- Взвешивание моделей позволяет нам комбинировать несколько разрешений, обеспечивая более плавное и достоверное представление данных.
- Априорные распределения Дирихле предоставляют нам строгий способ выразить наши первоначальные предположения о распределении данных.
Подобно тому, как теория возмущений обеспечивает иерархию физических взаимодействий, эта байесовская модель обеспечивает иерархию разрешения данных. Разрешение естественным образом масштабируется по мере увеличения объема доступных данных. Следует отметить, что подобные идеи также могут быть использованы при обучении моделей, в которых имеется разложение взаимодействий.
Также был исследован метод объединения плотностей различного разрешения в случае выбора случайных интервалов. Это привело к получению плавных гистограмм, которые могут выглядеть более естественно для большинства данных.
наборы.
Мы также представили использование стандартных отклонений в гистограммах. Хотя расчет стандартных отклонений был разработан для байесовских моделей, его процедура расчета предполагает более широкое применение. Таким образом, его можно использовать для визуализации остаточных неопределенностей в плотностях.
Благодарности
Проект EdgeAI «Технологии искусственного интеллекта на периферии сети для оптимизации производительности встроенных систем» получил финансирование от Объединенного предприятия ключевых цифровых технологий (KDT JU) в рамках грантового соглашения № 101097300. KDT JU получает поддержку от программы исследований и инноваций «Горизонт Европа» Европейского союза, а также от Австрии, Бельгии, Франции, Греции, Италии, Латвии, Люксембурга, Нидерландов и Норвегии.
Ссылки
- Ф. Пийлман, Дж. Л. (2023). Дисперсия правдоподобия данных. https://sitb2023.ulb.be/proceedings/, 34/37.
- Мерфи, К. (2022). Вероятностное машинное обучение: Введение. Издательство MIT Press.
- Врис, Б. д. (2026). Активный вывод для физических агентов ИИ. arXiv.
Био
Фетце Пийлман — ведущий научный сотрудник компании Signify Research в Эйндховене, Нидерланды. Его научные интересы охватывают вероятностное машинное обучение, байесовский вывод и обработку сигналов, с особым акцентом на применение этих математических методов к Интернету вещей, сенсорике и интеллектуальным системам.
Фетце Пийлман Посмотреть все от Фетце Пийлман
Источник: towardsdatascience.com

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.