Гистограмма с разноцветными столбцами на темном фоне.

Сохранение точности вероятностей: корректировка Якоби

Интуитивное объяснение правильного преобразования случайных величин

Делиться

baa0d5b1e34a7f1455cb25a30ec7f18b

Введение

Представьте, что вы моделируете недовольство клиентов, вызванное временем ожидания. Звонки поступают случайным образом, поэтому время ожидания X подчиняется экспоненциальному распределению — большинство ожиданий короткие, а некоторые мучительно долгие.

Теперь я бы сказал, что раздражение не является линейной величиной: 10-минутное ожидание ощущается более чем в два раза хуже, чем 5-минутное. Поэтому вы решаете моделировать «единицы раздражения» как (Y = X²).

Просто, правда? Просто возьмите функцию плотности вероятности X, замените x на (sqrt{y}), и всё готово.

Вы строите график. Он выглядит правдоподобно — пик около нуля, длинный хвост.

А что, если вычислить функцию распределения вероятностей? Вы бы ожидали получить 1, верно?

Результат? 2.

Краткий фрагмент кода numpy для подтверждения этого: import numpy as np import matplotlib.pyplot as plt from scipy.stats import expon # Функция распределения экспоненциального распределения (1): F(x) = 1 — exp(-x) для x >= 0 def cdf_exp(x): return 1 — np.exp(-x) # Неправильная (наивная) функция плотности вероятности для Y = X²: просто подставьте x = sqrt(y) def wrong_pdf(y): return np.exp(-np.sqrt(y)) # Интеграл равен 2! # Быстрая численная проверка интеграла from scipy.integrate import quad integral, err = quad(wrong_pdf, 0, np.inf) print(f»Численный интеграл ≈ {integral:.3f} (должен быть 1, но он равен 2)») # выводит 2

Согласно вашей новой модели распределения, вероятность каждого возможного исхода вдвое выше, чем должна быть.

Это невозможно… но это произошло из-за того, что вы упустили одну небольшую корректировку.

Эта «корректировка» — это якобиан, масштабный коэффициент, компенсирующий растяжение или сжатие оси в разных точках в результате преобразования. Если его не учитывать, ваши вероятности будут искажены. Если же он присутствует, всё снова идеально складывается.

В этой статье мы сформируем интуитивное понимание, шаг за шагом выведем математические формулы, увидим, как это естественным образом проявляется при выравнивании гистограммы, эмпирически визуализируем растяжение/сжатие и докажем это с помощью моделирования.

Источник: towardsdatascience.com

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.
Какой язык выбрать программисту в 2026 году?
Vantage Markets представит торговые решения на Blockchain Forum 2026
Моделирование данных для инженеров-аналитиков: полное руководство
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.
Ученые говорят: Клонировать
dummy-img
Как максимально эффективно использовать возможности коворкинга в Claude
Image Not Found
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026
Vantage Markets представит торговые решения на Blockchain Forum 2026

Vantage Markets представит торговые решения на Blockchain Forum 2026

14–15 апреля 2026 года в Москве, в Крокус Экспо, пройдет Blockchain Forum 2026 — одно из ключевых событий региона для профессионалов в сфере криптовалют, трейдинга и блокчейн-технологий. По мере того как индустрия продолжает развиваться в направлении цифровых…

Апр 20, 2026
Моделирование данных для инженеров-аналитиков: полное руководство

Моделирование данных для инженеров-аналитиков: полное руководство

Лучшие модели данных затрудняют постановку неправильных вопросов и упрощают ответы на правильные. Делиться Ваша модель данных — это не технические характеристики. Это мышление с точки зрения бизнеса. Рассматривайте её как план всей вашей аналитической системы. Если план…

Апр 20, 2026
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

Графическое резюме исследования © Михаил Медведев / Институт органической химии имени Н.Д. Зелинского РАН. Исследователи показали, что широко используемые методы квантовой химии могут не различать некоторые варианты распределения электронов в молекулах, из-за чего допускают ошибки при моделировании…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых