Интуитивное объяснение правильного преобразования случайных величин
Делиться

Введение
Представьте, что вы моделируете недовольство клиентов, вызванное временем ожидания. Звонки поступают случайным образом, поэтому время ожидания X подчиняется экспоненциальному распределению — большинство ожиданий короткие, а некоторые мучительно долгие.
Теперь я бы сказал, что раздражение не является линейной величиной: 10-минутное ожидание ощущается более чем в два раза хуже, чем 5-минутное. Поэтому вы решаете моделировать «единицы раздражения» как (Y = X²).
Просто, правда? Просто возьмите функцию плотности вероятности X, замените x на (sqrt{y}), и всё готово.
Вы строите график. Он выглядит правдоподобно — пик около нуля, длинный хвост.
А что, если вычислить функцию распределения вероятностей? Вы бы ожидали получить 1, верно?
Результат? 2.
Краткий фрагмент кода numpy для подтверждения этого: import numpy as np import matplotlib.pyplot as plt from scipy.stats import expon # Функция распределения экспоненциального распределения (1): F(x) = 1 — exp(-x) для x >= 0 def cdf_exp(x): return 1 — np.exp(-x) # Неправильная (наивная) функция плотности вероятности для Y = X²: просто подставьте x = sqrt(y) def wrong_pdf(y): return np.exp(-np.sqrt(y)) # Интеграл равен 2! # Быстрая численная проверка интеграла from scipy.integrate import quad integral, err = quad(wrong_pdf, 0, np.inf) print(f»Численный интеграл ≈ {integral:.3f} (должен быть 1, но он равен 2)») # выводит 2
Согласно вашей новой модели распределения, вероятность каждого возможного исхода вдвое выше, чем должна быть.
Это невозможно… но это произошло из-за того, что вы упустили одну небольшую корректировку.
Эта «корректировка» — это якобиан, масштабный коэффициент, компенсирующий растяжение или сжатие оси в разных точках в результате преобразования. Если его не учитывать, ваши вероятности будут искажены. Если же он присутствует, всё снова идеально складывается.
В этой статье мы сформируем интуитивное понимание, шаг за шагом выведем математические формулы, увидим, как это естественным образом проявляется при выравнивании гистограммы, эмпирически визуализируем растяжение/сжатие и докажем это с помощью моделирования.
Источник: towardsdatascience.com



























