Графическое изображение с формулами вероятности и выделенной точкой на сетке.

Байесовское мышление для тех, кто ненавидит статистику.

Проблема была не в вашем мозге, а в учебной программе.

Делиться

bf12601fb40443d9b4433bcc97055e1d
Изображение предоставлено автором.

Третий ряд лекционного зала, утро вторника. Профессор снимает колпачок с маркера и пишет на доске: P(A|B) = P(B|A) · P(A) / P(B). Ваша рука копирует формулу. Ваш мозг проверяет результат где-то в районе вертикальной черты.

Если это воспоминание только что всплыло в вашей памяти, вы не одиноки. Исследования показывают, что до 80% студентов колледжей испытывают ту или иную форму тревожности, связанной со статистикой. Для многих это самый сильный фактор, определяющий их оценку по курсу (сильнее, чем их предыдущие математические способности, согласно исследованию Университета Канзаса).

Вот чего никогда не упоминают на большинстве курсов статистики: вы занимались байесовским мышлением с детства. Формула на доске не учила вас чему-то новому. Она скрывала то, что вы уже понимали, под грудой обозначений.

Проблема, из-за которой 82% врачей потерпели крах.

Попробуйте это, прежде чем читать дальше.

Один процент женщин в возрасте 40 лет, участвующих в плановых скрининговых обследованиях, имеют рак молочной железы. Маммография правильно выявляет рак в 80% случаев. Кроме того, она выдает ложную тревогу в 9,6% случаев, указывая на рак там, где его нет.

Женщина получила положительный результат маммографии. Какова вероятность того, что у неё действительно рак?

Уделите немного времени.

В 1978 году исследователи из Гарвардской медицинской школы предложили 60 врачам и студентам-медикам аналогичную задачу определения базовой вероятности. Только 18% дали правильный ответ. Почти половина угадала 95%.

Фактический ответ на вопрос о маммографии: 7,8% .

Секрет в том, чтобы считать, а не вычислять. Возьмем 10 000 женщин:

  • У 100 человек диагностирован рак (это 1%).
  • Из этих 100 тестов 80 дали положительный результат (чувствительность 80%).
  • Из 9900 женщин, не имеющих рака, примерно у 950 (9,6%) выявляется ложноположительный результат.

Общее количество положительных маммограмм: 80 + 950 = 1030 .

Среди женщин, у которых действительно диагностирован рак, выявлено 80 случаев .

Вероятность: 80 ÷ 1030 = 7,8% .

78f3c0249ad53fed0551be568f0c9ea7
Ложноположительные результаты, полученные в огромной группе здоровых людей, значительно превосходят истинноположительные результаты, полученные в небольшой группе больных раком. Изображение предоставлено автором.

Греческие буквы не требуются. Просто посчитайте.

В Python это делается четырьмя строками:

 prior = 0.01 # 1% base rate sensitivity = 0.80 # P(positive | cancer) false_pos = 0.096 # P(positive | no cancer) posterior = (sensitivity * prior) / ( sensitivity * prior + false_pos * (1 - prior) ) print(f"{posterior:.1%}") # 7.8%

Немецкий психолог Герд Гигеренцер десятилетиями изучал именно эту проблему. Когда он и Ульрих Хоффраге переписали задачи на вероятность, используя естественные частоты (подсчитывая реальных людей вместо того, чтобы жонглировать процентами), количество правильных ответов среди неопытных участников подскочило с однозначных чисел почти до 50%. Та же математика, другое представление. Проблема заключалась не в интеллекте, а в формате.

Вы всю жизнь придерживались байесовского подхода.

Вы неосознанно выполняете этот расчет каждый день.

Ваша подруга рекомендует ресторан. «Лучший пад тай в городе», — говорит она. Вы открываете Google Maps: 4,2 звезды, 1200 отзывов. Ваше предвзятое мнение (она разбирается в тайской кухне, она уже была там) подтверждается фактами (хорошие, но не блестящие отзывы от незнакомцев). Ваше обновленное убеждение: вероятно, неплохо, стоит попробовать. Вы идете.

Вот теорема Байеса за три секунды. Предшествующее убеждение + новые доказательства = обновленное убеждение.

Шум в 3 часа ночи. Ваше предыдущее предположение: кошка что-то опрокинула (это случается два раза в неделю). Доказательство: звук похож на разбивание стекла, а не на тихий глухой удар. Вы ерзаете. Встаёте, чтобы проверить. Если вы видите кошку, стоящую рядом с разбитой вазой и дёргающую усы, ваше предположение снова обновляется. Предыдущее предположение подтверждается. Снова засыпаете.

Вы проверяете прогноз погоды в приложении: 40% вероятность дождя. Вы смотрите в окно на голубое небо без облаков на горизонте. Ваша внутренняя модель не согласна с приложением. Вы хватаете легкую куртку, но оставляете зонт.

Вы получаете электронное письмо от генерального директора с просьбой купить подарочные карты. Ваше предположение: она никогда раньше не обращалась с подобной просьбой. Доказательства: письмо пришло с адреса Gmail, грамматика неверна, тон неправильный. Ваше предположение: почти наверняка это фишинг. Вы не переходите по ссылке.

Ничто из этого не воспринимается как статистика. Это скорее здравый смысл. В этом-то и суть.

Формула на доске представляла собой лишь обозначение того, что происходит в вашем мозге в промежутке между обнаружением проблемы и принятием решения.

Воспринимаемый разрыв между «статистикой» и «здравым смыслом» — это артефакт того, как преподают статистику. Начнём с формулы — и получим путаницу. Начнём с интуиции — и формула сама собой сложится.

Почему в вашем курсе статистики всё наоборот?

Это не маргинальная критика. Статистическое ведомство само начало открыто об этом заявлять.

В 2016 году Американская статистическая ассоциация (ASA) выпустила первое официальное руководство по конкретному статистическому методу за 177 лет своего существования. Цель: неправильное использование p-значений. Среди шести принципов: p-значения не измеряют вероятность истинности гипотезы, а пороговое значение значимости 0,05 является «общепринятым и произвольным».

Три года спустя 854 учёных подписали комментарий в журнале Nature под названием «Учёные восстают против статистической значимости». В том же номере журнала The American Statistician было опубликовано 43 статьи о том, что следует после p < 0,05.

6411c34510ee25814725926a9cee0df9
Изображение предоставлено автором.

Основная структурная проблема, как описывает её биостатистик Фрэнк Харрелл из Университета Вандербильта, заключается в следующем: частотная статистика задаёт вопрос: «Насколько странны мои данные, если предположить, что ничего интересного не происходит?» Это P(данные | гипотеза). На самом деле вам нужно: «Учитывая эти данные, насколько вероятна моя гипотеза?» Это P(гипотеза | данные).

Это не один и тот же вопрос. Путаница между ними возникает из-за того, что математик Обри Клейтон называет «ошибкой Бернулли» — ошибкой, которую он связывает с конкретным просчетом Якоба Бернулли в XVIII веке, и которая с тех пор прочно вошла в учебные программы.

Насколько глубока эта путаница? Исследование 2022 года показало, что 73% преподавателей методологии статистики (не студентов, а преподавателей) придерживаются наиболее распространенной неверной интерпретации p-значений, рассматривая их как P(гипотеза | данные).

«Значения p зависят от неизвестных факторов и не зависят от известных. Это обратные вероятности».

Фрэнк Харрелл, Университет Вандербильта

Результат: кризис воспроизводимости. Проект по воспроизводимости попытался воспроизвести 100 опубликованных психологических исследований. Примерно 60% из них потерпели неудачу. Воспроизведенные эффекты в среднем составляли половину от первоначально заявленного размера. В качестве основной причины был определен p-хакинг (корректировка анализа до тех пор, пока не появится p < 0,05).

Байесовский классификатор за пять минут, без формул.

В каждом байесовском вычислении ровно три составляющие.

Предварительные данные . То, во что вы верили до того, как увидели какие-либо доказательства. В задаче с маммографией это базовая частота в 1%. В решении о выборе ресторана это история успеха вашего друга. Предварительные данные — это не предположения; они могут включать в себя данные за десятилетия. Это ваша отправная точка.

Вероятность. Насколько вероятны наблюдаемые вами данные при каждом возможном сценарии развития событий? Если рак присутствует, насколько вероятен положительный результат теста? (80%). Если отсутствует, насколько вероятен положительный результат? (9,6%). Отношение этих двух чисел (80 ÷ 9,6 ≈ 8,3) — это коэффициент вероятности. Он измеряет диагностическую силу данных: насколько эти данные должны повлиять на ваше убеждение?

Апостериорное распределение. Ваше обновлённое убеждение после объединения априорного распределения с имеющимися данными. Вот что вас интересует. В случае с маммографией: 7,8%.

Вот и вся структура. Априорное значение × Вероятность = Апостериорное значение (после нормализации). Формула P(A|B) = P(B|A) · P(A) / P(B) — это сокращенное обозначение для «обновите свои убеждения на основе того, что вы только что узнали».

Одно из важнейших правил: для изменения сильной априорной вероятности необходимы веские доказательства. Если вы на 95% уверены в стабильности вашей системы и срабатывает одно-единственное шумное оповещение, ваша апостериорная вероятность практически не меняется. Но если три независимые системы мониторинга сигнализируют об одной и той же службе в 3 часа ночи, доказательства перевешивают априорную вероятность. Ваше убеждение быстро меняется. Именно поэтому закономерности важнее отдельных точек данных, и именно поэтому накопление доказательств мощнее любого отдельного теста.

Структура PRIOR: байесовское рассуждение в действии

Вот пятиэтапный процесс, который вы можете применить за своим рабочим столом в понедельник утром. Никакого статистического программного обеспечения не требуется.

P: Закрепите свой предыдущий

Прежде чем анализировать данные, запишите, во что вы верите и почему. Укажите конкретное число. Например: «Я думаю, что существует 60%-ная вероятность того, что снижение конверсии вызвано новым процессом оформления заказа». Это предотвратит привязку к тому, что покажут данные в первую очередь.

Пример: A/B-тест вашей команды показал увеличение числа регистраций на 12%. Прежде чем делать выводы, спросите себя: каковы были ваши априорные предположения? Если девять из десяти аналогичных экспериментов в вашей компании показали увеличение менее чем на 5%, то результат в 12% заслуживает пристального внимания, а не ликования. Ваши априорные предположения говорят о том, что значительные эффекты здесь встречаются редко.

R: Оцените доказательства

Задайте два вопроса:

  • Если моё предположение верно, насколько вероятны эти доказательства?
  • Если моё убеждение ошибочно, насколько вероятно наличие этих доказательств?

Соотношение важнее, чем каждое из этих чисел по отдельности. Соотношение, близкое к 1, означает, что доказательства в равной степени согласуются с обоими объяснениями (они слабые, едва ли заслуживают обновления). Соотношение 8:1 или выше означает, что доказательства явно склоняются в пользу одной из сторон. Соответственно скорректируйте свои убеждения.

Я: Переверните вопрос

Прежде чем делать какие-либо выводы, проверьте: отвечаю ли я на интересующий меня вопрос? «Какова вероятность увидеть эти данные, если моя гипотеза верна?» — это не «какова вероятность того, что моя гипотеза верна при наличии этих данных». Первое — это p-значение. Второе — это то, что вам нужно. Смешивание этих понятий — самая распространенная статистическая ошибка в опубликованных исследованиях.

O: Выведите ваше обновленное убеждение

Сочетайте априорные данные и доказательства. Убедительные доказательства с высоким коэффициентом правдоподобия существенно меняют ваше убеждение. Неоднозначные доказательства практически не влияют на него. Четко сформулируйте результат: «Теперь я оцениваю вероятность того, что этот эффект реален, в 35%, вместо 60%».

Точные цифры не нужны. Даже приблизительные категории (маловероятно, правдоподобно, вероятно, почти наверняка) лучше, чем бинарное мышление (значимо против незначительно).

R: Промыть и повторить

Ваше сегодняшнее апостериорное распределение завтра станет априорным. Проведите дополнительный эксперимент. Проверьте другой набор данных. Каждое полученное доказательство уточняет картину. Главное правило: никогда не выбрасывайте накопленные знания и начинайте с нуля с каждым новым набором данных.

97edb4d7b2bd98f66a89546753008f28
Изображение предоставлено автором.

От спам-фильтров до затонувших подводных лодок

Байесовское мышление — это не просто инструмент анализа. Оно используется в производственных системах, обрабатывающих миллиарды решений.

Фильтрация спама. В августе 2002 года Пол Грэм опубликовал «План борьбы со спамом», в котором представил байесовскую классификацию электронной почты. Система присваивала каждому слову вероятность появления в спаме по сравнению с легитимными письмами (вероятность), объединяла её с базовой частотой спама (априорное значение) и вычисляла апостериорное значение для каждого сообщения. Фильтр Грэма обнаруживал спам с вероятностью 99,5% и без ложных срабатываний на его личном корпусе. Сейчас каждый крупный почтовый провайдер использует какой-либо вариант этого подхода.

Настройка гиперпараметров. Байесовская оптимизация заменила поиск по сетке в компаниях, занимающихся дорогостоящим обучением моделей. Вместо исчерпывающего тестирования каждой комбинации настроек, она строит вероятностную модель того, какие конфигурации будут работать хорошо (априорное распределение), оценивает наиболее перспективного кандидата, наблюдает результат и обновляет его (апостериорное распределение). Каждая итерация делает более разумный выбор. Для модели, обучение которой занимает часы, это может сократить время настройки с недель до дней.

Количественная оценка неопределенности. Вероятностные программные фреймворки, такие как PyMC и Stan, создают модели, которые выдают полные распределения вероятностей, а не отдельные числа. Вместо «коэффициент равен 0,42» вы получаете «коэффициент находится в диапазоне от 0,35 до 0,49 с вероятностью 95%». Это байесовский доверительный интервал. В отличие от частотного доверительного интервала, он на самом деле означает то, что большинство людей понимают под доверительным интервалом: существует 95% вероятность того, что истинное значение находится в этом диапазоне.

Но самая впечатляющая история успеха в области байесовского подхода связана с атомной подводной лодкой на дне Атлантического океана.

В мае 1968 года подводная лодка USS Scorpion не смогла прибыть в свой порт приписки в Норфолке, штат Вирджиния. На борту находилось девяносто девять человек. Военно-морской флот знал, что подводная лодка находится где-то в Атлантике, но зона поиска охватывала тысячи квадратных миль глубоководного океанского дна.

Математик Джон Крейвен применил иной подход, нежели поиск по сетке в океане. Он собрал экспертов и попросил их присвоить вероятности девяти сценариям отказов (взрыв корпуса, неисправность торпеды, ошибка навигации). Он разделил зону поиска на квадраты сетки и присвоил каждому из них априорную вероятность, основанную на объединенных оценках.

Затем начинались поиски. Каждый раз, когда команда очищала клетку сетки и ничего не находила, Крейвен обновлял апостериорные вероятности. Пустая клетка 47? Вероятностная масса смещалась на оставшиеся клетки. Каждая неудачная попытка поиска не была пустой тратой усилий. Это было доказательством, систематически сужающим круг возможных вариантов.

Каждая пустая ячейка сетки не означала неудачу. Это были данные.

Этот метод позволил точно определить местоположение бомбы «Скорпион» с точностью до 220 ярдов от предполагаемого, на дне океана на глубине 10 000 футов. Та же самая байесовская методика поиска позже помогла обнаружить водородную бомбу, потерянную после крушения бомбардировщика B-52 в 1966 году недалеко от Паломареса, Испания, и способствовала обнаружению обломков рейса Air France 447 в глубинах Атлантического океана в 2011 году.

Вернемся на мгновение к проблеме маммографии.

Причина, по которой 82% врачей ошиблись, заключалась не в арифметике. Дело в том, что никто не научил их задавать единственный важный вопрос: насколько распространено это заболевание среди обследуемой популяции?

Этот вопрос (априорный) — наиболее часто игнорируемый этап интерпретации данных. Пропустив его, вы можете принять ложную тревогу за диагноз, шумный эксперимент за реальный эффект, совпадение за закономерность.

Вся статистика, с которой вы столкнетесь на этой неделе, — это результаты маммографии. Заголовок, утверждающий, что лекарство «удваивает ваш риск». A/B-тест с p = 0,03. Оценка эффективности на основе данных за один квартал.

Каждый из них является доказательством. Ни один из них не является выводом.

Для заключения необходимо то, что у вас всегда было: то, что вы знали до того, как увидели это число. Ваш профессор статистики просто никогда не давал вам разрешения его использовать.

Ссылки

  1. Касселлс, В., Шёнбергер, А., и Грабой, Т.Б. (1978). «Интерпретация врачами результатов клинических лабораторных исследований». New England Journal of Medicine, 299(18), 999-1001.
  2. Гигеренцер, Г. и Хоффрейдж, У. (1995). «Как улучшить байесовское рассуждение без инструкций: частотные форматы». Psychological Review, 102, 684-704.
  3. Американская статистическая ассоциация (2016). «Заявление Американской статистической ассоциации о статистической значимости и значениях p». Американский статистик, 70(2), 129-133.
  4. Амрхайн, В., Гринленд, С., и МакШейн, Б. (2019). «Ученые восстают против статистической значимости». Nature, 567, 305-307.
  5. Open Science Collaboration (2015). «Оценка воспроизводимости психологических исследований». Science, 349(6251), aac4716.
  6. Грэм, П. (2002). «План борьбы со спамом».
  7. Харрелл, Ф. (2017). «Мой путь от частотной к байесовской статистике». Статистическое мышление.
  8. Клейтон, А. (2021). Ошибка Бернулли: статистическая нелогичность и кризис современной науки. Издательство Колумбийского университета.
  9. Баденес-Рибера, Л. и др. (2022). «Устойчивые заблуждения относительно значений p среди академических психологов». PMC.
  10. Калид Азад. «Интуитивное (и краткое) объяснение теоремы Байеса». BetterExplained.
  11. Авторы Википедии. «Байесовская теория поиска». Википедия.

Каушик Раджан Посмотреть все материалы от Каушика Раджана

Источник: towardsdatascience.com

✅ Найденные теги: Анализ, Байесовское, Байесовское Мышление, Вероятность, новости, Статистика

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Древняя керамическая черепица с надписями на двух сторонах, археологическая находка.
Смартфон с приложением для измерения артериального давления. Показатели: 103/71.
Робот-газонокосилка на зеленом газоне рядом с тротуаром.
Снегомер в снегу показывает толщину снежного покрова на светлом фоне.
Логотип MLB на бейсбольном поле, игрок с битой на фоне красного и синего цвета.
ideipro logotyp
Google представила интеграцию медицинских записей в приложение Fitbit на мероприятии Check Up | MobiHealthNews
SynthID: что это такое и как это работает
Квантовый компьютер в лаборатории с проводами и металлическими компонентами.
Image Not Found
Смартфон с приложением для измерения артериального давления. Показатели: 103/71.

Анонс программы «Чудо техники» на 22 марта 2026

В новом выпуске программы «Чудо техники» с Сергеем Малозёмовым»: Давление как у космонавта! Мы устроили полёт для наших испытателей, чтобы проверить современные портативные тонометры. Правда ли кольца, «умные» часы и приборы на запястье измеряют так же точно,…

Мар 21, 2026
Робот-газонокосилка на зеленом газоне рядом с тротуаром.

Без проводов и настроек: робот-газонокосилка нового поколения

Компания KEENON Robotics представила роботизированную газонокосилку KEENMOW K1.  В основе модели лежит технология AuraVue™, объединяющая 3D-лидар и компьютерное зрение с элементами искусственного интеллекта. Газонокосилка самостоятельно сканирует пространство, строит трёхмерную карту участка, распознаёт границы и препятствия и прокладывает…

Мар 21, 2026
Снегомер в снегу показывает толщину снежного покрова на светлом фоне.

Новый метод оценки загрязненности воздуха в городах России: анализ снега

. Качканар. Отбор проб снега. Видны следы атмосферной пыли © Андриан Селезнев / Из личного архива Ученые усовершенствовали простой метод оценки состояния городского воздуха по составу снега. Подход, основанный на комплексном химическом анализе, позволяет точно определить, какие…

Мар 21, 2026
Логотип MLB на бейсбольном поле, игрок с битой на фоне красного и синего цвета.

Компания Polymarket продолжает свою серию партнерских соглашений, заключив сделку с Главной лигой бейсбола.

Вкратце Источник изображения: Марк Каннингем / MLB / Getty Images Платформа прогнозирования Polymarket активно заключает партнерские соглашения — и эта тенденция продолжилась на этой неделе с новым соглашением с Главной лигой бейсбола. В четверг MLB объявила, что…

Мар 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых