В экспериментах рандомизация обычно уравновешивает искажающие факторы, но что происходит, когда этого не происходит?
Делиться

Случайное распределение методов лечения в экспериментах обладает удивительной способностью уравновешивать искажающие факторы и другие ковариаты в тестовых группах. Эта тенденция обеспечивает множество благоприятных условий для анализа результатов экспериментов и формулирования выводов. Однако рандомизация, как правило, уравновешивает ковариаты, но это не гарантировано.
Что если рандомизация не уравновешивает ковариаты? Подрывает ли дисбаланс достоверность эксперимента?
Я долго размышлял над этим вопросом, прежде чем пришел к удовлетворительному выводу. В этой статье я расскажу о ходе своих размышлений, которые привели меня к пониманию того, что экспериментальная достоверность зависит от независимости ковариат и воздействия, а не от баланса .
Вот конкретные темы, которые я затрону:
- Рандомизация, как правило, уравновешивает ковариаты.
- Что вызывает дисбаланс ковариат даже при рандомизации?
- Достоверность эксперимента заключается в независимости, а не в сбалансированности.
Рандомизация, как правило, уравновешивает ковариаты, но гарантий нет.
Центральная предельная теорема (ЦПТ) показывает, что среднее значение случайно выбранной выборки имеет нормальное распределение со средним значением, равным среднему значению генеральной совокупности, и дисперсией, равной дисперсии генеральной совокупности, деленной на размер выборки. Эта концепция очень применима к нашему обсуждению, поскольку нас интересует равновесие — то есть, когда средние значения наших случайных выборок близки. ЦПТ предоставляет распределение для этих выборочных средних значений.
Благодаря центральной предельной теореме, мы можем рассматривать среднее значение выборки так же, как и любую другую случайную величину. Если вспомнить основы теории вероятностей, то, имея распределение случайной величины, мы можем вычислить вероятность того, что выбранный из этого распределения индивид попадет в определенный диапазон.
Прежде чем углубляться в теорию, давайте перейдем к примеру, чтобы лучше понять суть. Допустим, мы хотим провести эксперимент, для которого нужны две случайно выбранные группы кроликов. Предположим, что вес отдельного кролика в основном распределен по нормальному закону со средним значением 3,5 фунта и дисперсией 0,25 фунта.

Приведённая ниже простая функция на Python вычисляет вероятность того, что наша случайная выборка кроликов попадёт в определённый диапазон, учитывая распределение популяции и размер выборки:
from scipy.stats import norm def normal_range_prob(lower, upper, pop_mean, pop_std, sample_size): sample_std = pop_std/np.sqrt(sample_size) upper_prob = norm.cdf(upper, loc=mean, scale=sample_std) lower_prob = norm.cdf(lower, loc=mean, scale=sample_std) return upper_prob — lower_prob
Предположим, что мы считаем средние значения двух выборок сбалансированными, если оба они находятся в пределах +/- 0,10 фунта от среднего значения генеральной совокупности. Кроме того, начнём с выборки по 100 кроликов в каждой. Вероятность того, что среднее значение одной выборки попадёт в этот диапазон, можно рассчитать с помощью нашей функции, как показано ниже:

При размере выборки в 100 кроликов вероятность того, что среднее значение выборки окажется в пределах 0,1 фунта от среднего значения популяции, составляет примерно 95%. Поскольку случайная выборка двух групп является независимым событием, мы можем использовать правило произведения, чтобы вычислить вероятность того, что две выборки окажутся в пределах 0,1 фунта от среднего значения популяции, просто возведя исходную вероятность в квадрат. Таким образом, вероятность того, что две выборки будут сбалансированы и близки к среднему значению популяции, составляет 0,90% (0,952). Если бы у нас было три размера выборки, вероятность того, что все они будут сбалансированы близко к среднему значению, составила бы 0,953 = 87%.
Здесь я хочу выделить две взаимосвязи: (1) с увеличением размера выборки вероятность уравновешивания возрастает, и (2) с увеличением числа тестовых групп вероятность уравновешивания всех групп снижается.
В таблице ниже показана вероятность того, что все случайно назначенные тестовые группы сбалансируются для различных размеров выборки и количества тестовых групп:

Здесь мы видим, что при достаточно большом размере выборки смоделированный нами вес кролика с большой вероятностью уравновесится, даже при наличии 5 тестовых групп. Однако при сочетании меньшего размера выборки и большего количества тестовых групп эта вероятность уменьшается.
Теперь, когда мы понимаем, как рандомизация, как правило, уравновешивает ковариаты в благоприятных условиях, мы перейдем к обсуждению того, почему ковариаты иногда не уравновешиваются.
Примечание: В данном обсуждении мы рассматривали только возможность того, что ковариаты уравновешиваются вблизи выборочного среднего. Гипотетически, они могли бы уравновешиваться в точке, удаленной от выборочного среднего, но это крайне маловероятно. Мы проигнорировали эту возможность, но я хотел бы отметить, что она существует.
Причины дисбаланса ковариат, несмотря на рандомизированное распределение.
В предыдущем обсуждении мы получили представление о том, почему ковариаты, как правило, уравновешиваются при случайном распределении. Теперь мы перейдем к обсуждению того, какие факторы могут приводить к дисбалансу ковариат между группами тестирования.
Ниже я приведу пять причин, которые я затрону:
- Не повезло с отбором проб.
- Небольшие размеры выборки
- Экстремальные распределения ковариат
- Много тестовых групп
- Много значимых ковариат
Не повезло с отбором проб.
Балансировка ковариат всегда связана с вероятностями, и идеальной 100% вероятности балансировки никогда не существует. Из-за этого всегда есть вероятность — даже при очень хороших условиях рандомизации — что ковариаты в эксперименте не будут сбалансированы.
Небольшие размеры выборки
При малых размерах выборки дисперсия распределения средних значений велика. Эта большая дисперсия может привести к высокой вероятности больших различий в средних значениях ковариат в разных тестируемых популяциях, что в конечном итоге может привести к дисбалансу ковариат.

До сих пор мы также предполагали, что размеры выборок во всех группах лечения одинаковы. Однако существует множество ситуаций, когда нам может потребоваться разный размер выборки в разных группах лечения. Например, у нас может быть предпочтительное лекарство для пациентов с определенным заболеванием; но мы также хотим проверить, является ли новое лекарство лучше. Для такого теста мы хотим, чтобы большинство пациентов продолжали принимать предпочтительное лекарство, а часть пациентов случайным образом назначали потенциально лучшее, но непроверенное лекарство. В подобных ситуациях меньшие по размеру группы тестирования будут иметь более широкое распределение среднего значения выборки и, следовательно, более высокую вероятность того, что среднее значение выборки будет дальше от среднего значения популяции, что может привести к дисбалансу.
Экстремальные распределения ковариат
Центральная предельная теорема (ЦПТ) правильно определяет, что выборочное среднее любого распределения является нормальным при достаточном размере выборки. Однако достаточный размер выборки не одинаков для всех распределений. Для экстремальных распределений требуется больший размер выборки, чтобы выборочное среднее стало нормальным. Если в популяции есть ковариаты с экстремальными распределениями, для того чтобы выборочные средние вели себя нормально, потребуются более крупные выборки. Если размеры выборок относительно велики, но слишком малы, чтобы компенсировать экстремальные распределения, вы можете столкнуться с проблемой малого размера выборки, которую мы обсуждали в предыдущем разделе, даже если размер выборки велик.

Много тестовых групп
В идеале мы хотим, чтобы все тестовые группы имели сбалансированные ковариаты. По мере увеличения числа тестовых групп это становится все менее и менее вероятным. Даже в крайних случаях, когда у одной тестовой группы есть 99% вероятность быть близкой к среднему значению генеральной совокупности, наличие 100 групп означает, что мы должны ожидать, что по крайней мере одна из них выйдет за пределы этого диапазона.
Хотя сто экспериментальных групп кажется довольно экстремальным показателем, наличие большого количества экспериментальных групп — не редкость. Типичные экспериментальные схемы включают в себя множество факторов, каждый из которых имеет различные уровни. Представьте, что мы проверяем эффективность различных питательных веществ для роста растений. Мы можем захотеть протестировать 4 различных питательных вещества и 3 различных уровня концентрации. Если бы этот эксперимент был полноранговым (мы создаем экспериментальную группу для каждой возможной комбинации воздействий), мы бы создали 81 (34) экспериментальную группу.
Много значимых ковариат
В нашем примере с экспериментом на кроликах мы обсуждали только одну ковариату. На практике же нам нужно, чтобы все значимые ковариаты уравновешивались. Чем больше значимых ковариат, тем меньше вероятность достижения полного баланса. Подобно проблеме слишком большого количества испытуемых групп, каждая ковариата имеет вероятность не уравновешивания — чем больше ковариат, тем меньше вероятность того, что все они уравновесятся. Мы должны учитывать не только те ковариаты, которые, как нам известно, важны, но и те, которые мы не отслеживаем или даже не знаем. Мы хотим, чтобы и они уравновешивались.
Вот пять причин, по которым мы можем не наблюдать баланса ковариат. Это не исчерпывающий список, но его достаточно, чтобы мы могли хорошо понимать, где часто возникает эта проблема. Теперь мы можем начать говорить о том, почему эксперименты являются валидными, даже если ковариаты не сбалансированы.
Достоверность эксперимента заключается в независимости, а не в сбалансированности.
Сбалансированные ковариаты имеют преимущества при анализе результатов эксперимента, но они не являются обязательными для его достоверности. В этом разделе мы рассмотрим, почему сбалансированность полезна, но не является необходимой для достоверного эксперимента.
Преимущества сбалансированных ковариат
Когда ковариаты сбалансированы между тестовыми группами, оценки эффекта лечения, как правило, более точны и имеют меньшую дисперсию в экспериментальной выборке.
Включение ковариат в анализ эксперимента часто является хорошей идеей. Когда ковариаты сбалансированы, оцениваемые эффекты воздействия менее чувствительны к включению и спецификации ковариат в анализе. Когда ковариаты не сбалансированы, как величина, так и интерпретация оцениваемого эффекта воздействия могут в большей степени зависеть от того, какие ковариаты включены и как они смоделированы.
Почему для достоверного эксперимента не требуется равновесие
Хотя сбалансированность является идеальным вариантом, она не обязательна для достоверного эксперимента. Достоверность эксперимента заключается в разрыве зависимости воздействия от каких-либо ковариат. Если эта зависимость нарушена, то эксперимент считается достоверным — правильная рандомизация всегда нарушает систематическую связь между воздействием и всеми ковариатами.
Вернемся к нашему примеру с кроликами. Если бы мы позволили кроликам самостоятельно выбирать рацион, могли бы существовать факторы, влияющие как на набор веса, так и на выбор диеты. Возможно, молодые кролики предпочитают диету с высоким содержанием жиров, и у молодых кроликов больше шансов набрать вес по мере роста. Или, возможно, существует генетический маркер, который делает кроликов более склонными к набору веса и более склонными к предпочтению пищи с высоким содержанием жиров. Самостоятельный выбор может вызвать множество искажающих факторов в выводах нашего анализа.
Если бы вместо этого мы использовали рандомизацию, систематические взаимосвязи между выбором диеты (лечение) и возрастом или генетикой (факторы, влияющие на результат) были бы нарушены, и наш экспериментальный процесс был бы корректным. В результате любая оставшаяся связь между лечением и ковариатами обусловлена случайностью, а не отбором, и причинно-следственный вывод из эксперимента был бы корректным.

Хотя рандомизация разрывает связь между искажающими факторами и методами лечения и делает экспериментальный процесс достоверным, она не гарантирует, что наш эксперимент не придет к неверному выводу.
Вспомните простой пример проверки гипотез из вводного курса статистики. Мы случайным образом выбираем выборку из генеральной совокупности, чтобы определить, отличается ли среднее значение генеральной совокупности от заданного значения или нет. Этот процесс является допустимым — то есть, он имеет четко определенные показатели ошибок в долгосрочной перспективе, но неудача в одной случайной выборке может привести к ошибкам первого или второго типа. Другими словами, этот подход является обоснованным, хотя и не гарантирует правильного вывода каждый раз.

Рандомизация в экспериментах работает аналогичным образом. Это допустимый подход к установлению причинно-следственных связей, но это не означает, что каждый отдельный рандомизированный эксперимент даст правильный вывод. Случайные дисбалансы и вариативность выборки могут влиять на результаты в любом отдельном эксперименте. Возможность ошибочных выводов не делает этот подход недействительным.
Подводя итоги
Рандомизация, как правило, уравновешивает ковариаты между группами лечения, но не гарантирует баланса в каком-либо отдельном эксперименте. Что гарантирует рандомизация, так это валидность. Систематическая взаимосвязь между назначением лечения и ковариатами нарушается самой структурой эксперимента. Баланс ковариат повышает точность, но не является необходимым условием для достоверного причинно-следственного вывода. При возникновении дисбаланса корректировка ковариат может смягчить его последствия. Главный вывод заключается в том, что баланс желателен и полезен, но именно рандомизация (а не баланс) делает эксперимент валидным.
Источник: towardsdatascience.com



























