Анализ графиков: врач исследует фигуру на фоне диаграммы с линиями и точками.

Когда данные отсутствуют, учёные делают предположения. А потом предполагают ещё раз.

В социальных и биологических науках статистики используют метод, основанный на случайности, для работы с неизвестными величинами. Комментарий Сохранить статью Прочитать позже

1db97d5f033e6498332935ae244e02d3

Введение

Данные почти всегда неполны. Пациенты выбывают из клинических испытаний, а респонденты в опросах пропускают вопросы; школы не сообщают результаты, а правительства игнорируют элементы своей экономики. Когда данные отсутствуют, стандартные статистические инструменты, такие как вычисление средних значений, перестают быть полезными.

«Мы не можем производить вычисления с недостающими данными, так же как не можем делить на ноль», — сказал Стеф ван Бюрен, профессор статистического анализа неполных данных в Утрехтском университете.

Предположим, вы тестируете новый препарат для снижения артериального давления. Вы измеряете артериальное давление участников исследования каждую неделю, но некоторые из них теряют терпение: их давление практически не улучшается, поэтому они перестают приходить на испытания.

Можно исключить этих пациентов, оставив только данные тех, кто завершил исследование, — метод, известный как анализ полных случаев. Это может показаться интуитивно понятным, даже очевидным. Но это также обман. Если вы исключите людей, которые не завершили исследование, вы исключите случаи, когда ваш препарат показал наихудшие результаты, создавая впечатление, что лечение лучше, чем оно есть на самом деле. Вы исказите результаты.

Избежать этой предвзятости и сделать это хорошо оказывается на удивление сложно. Долгое время исследователи полагались на импровизированные методы, каждый из которых имел свои существенные недостатки. Но в 1970-х годах статистик Дональд Рубин предложил общий метод, хотя и создававший чрезмерную нагрузку на вычислительные мощности того времени. Его идея заключалась в том, чтобы сделать ряд предположений о том, какими могут быть отсутствующие данные, а затем использовать эти предположения. Этот метод поначалу встретил сопротивление, но за последние несколько десятилетий он стал наиболее распространенным способом работы с отсутствующими данными во всем, от популяционных исследований до испытаний лекарств. Недавние достижения в области машинного обучения могут сделать его еще более распространенным.

Немного случайности

Вне рамок статистики «вменение» означает возложение ответственности или вины. Статистики же, напротив, присваивают данные. Например, если вы забыли указать свой рост в анкете, вам могут присвоить правдоподобный рост, например, средний рост для вашего пола.

Такой метод предположения известен как однократная импутация. Этот статистический метод, появившийся еще в 1930 году, работает лучше, чем простое игнорирование пропущенных данных. К 1960-м годам он часто становился предпочтительным методом статистиков. Рубин изменил это.

В начале 60-х Рубин начал свое обучение в бакалавриате по специальности физика, но затем переключился на психологию. После поступления в аспирантуру Гарвардского университета ему сказали, что он не может пропустить обязательные математические курсы на кафедре психологии. Почувствовав, что он уже изучил этот материал в университете, он переключился на информатику и получил степень магистра в 1966 году. После этого он провел лето, разрабатывая статистические программы для социолога, что вдохновило его на получение докторской степени по статистике.

В ходе своей докторской диссертации Рубин заинтересовался проблемой отсутствующих данных. Хотя метод однократной импутации позволял избежать предвзятости, присущей анализу полных случаев, Рубин обнаружил в нем свой недостаток: чрезмерную самоуверенность. Каким бы точным ни казалось предположение, статистики никогда не могут быть полностью уверены в его правильности. Методы, использующие однократную импутацию, часто недооценивают вносимую ими неопределенность. Более того, хотя статистики могут найти способы исправить это, Рубин понял, что их методы, как правило, капризны и специфичны, и каждая ситуация практически требует отдельной магистерской диссертации. Ему нужен был метод, который был бы одновременно точным и универсальным, адаптируемым практически к любой ситуации.

Стеф ван Бюрен на пляже.

Стеф ван Бюрен из Утрехтского университета помог разработать статистические методы для анализа неполных данных. «Мы не можем производить вычисления с отсутствующими данными, так же как не можем делить на ноль», — сказал он.

В 1971 году, через год после получения докторской степени, Рубин начал работать в Службе образовательного тестирования (Educational Testing Service) в Принстоне, штат Нью-Джерси. Когда правительственное агентство попросило ETS проанализировать опрос с отсутствующими данными, Рубин предложил нетрадиционное, но удивительно простое решение: не заполнять пропущенные данные один раз. Заполнять пропущенные данные несколько раз.

Вменение данных и повторное вменение данных

Вернемся к исследованию артериального давления. Вы тестируете новый препарат от высокого давления, и некоторые пациенты перестают приходить в клинику. Что вы будете делать?

Если бы вы использовали метод однократной импутации, вы могли бы предположить, что у всех, кто выбыл из исследования, данные о последнем измеренном артериальном давлении сохранились навсегда. Или вы могли бы попробовать что-то более сложное: найти, скажем, другого пациента, чье состояние было схожим с состоянием пациента, данные которого отсутствуют, и использовать его данные.

Но, вероятно, существует несколько похожих случаев, из которых вы могли бы выбрать, — и замена значения на другое может привести к совершенно иному результату. Все различные варианты, которые вы можете выбрать, дают то, что статистики называют распределением прогнозов для отсутствующих данных.

d3e8f37d74e179d8cc13d43cca7784caa088595d771c899be3bfd1c5354a14f7

Подход Рубина, называемый множественной импутацией, учитывает это распределение. Для его использования сначала сделайте несколько копий вашего набора данных. Для заданного пропущенного значения в одной из копий случайным образом назначьте предположение из вашего распределения. По замыслу, вы с большей вероятностью выберете одно из лучших предположений, но у вас также будет небольшой шанс выбрать одно из менее правдоподобных предположений. Этот процесс отражает неопределенность каждого предположения. Повторите эти шаги для пропущенного значения в каждой из остальных копий набора данных.

После заполнения всех недостающих данных вы можете проанализировать каждый заполненный набор данных. В результате вы получите несколько различных прогнозов эффективности вашего препарата. Затем вы можете использовать алгоритм, известный как правила Рубина, чтобы объединить результаты и получить средний прогноз. Следуя этим шагам, вы также можете вычислить более точную оценку неопределенности вашего окончательного прогноза. Для регулирующих органов в сфере лекарственных препаратов, таких как Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA), точность оценки этой неопределенности имеет решающее значение: она влияет на то, будет ли препарат одобрен или нет.

Расширение областей применения множественной импутации

Когда Рубин впервые представил свою методику в начале 1970-х годов, многие ученые отнеслись к ней скептически. Зачем, спрашивали они, использовать что-либо, кроме наиболее вероятного предположения? Даже те, кто хотел попробовать, иногда сталкивались с трудностями в реализации: если их исследование касалось, скажем, данных переписи населения, то хранение нескольких копий означало бы обработку сотен миллионов записей данных. В эпоху, когда данные приходилось хранить на перфокартах, это было практически невозможно.

Рубин активно продвигал свой метод на протяжении 1970-х и 1980-х годов. Он консультировал ряд правительственных учреждений, включая Налоговое управление США, Национальные институты здравоохранения, Министерство труда и Министерство обороны — ведомства, которые располагали ресурсами для создания множества копий больших массивов данных. Его работа с ними показала, насколько эффективным может быть множественное вменение данных. Эти организации также создавали вмененные данные, которые другие могли затем использовать в своих собственных анализах.

К 1990-м годам объем компьютерной памяти и вычислительная мощность значительно продвинулись. Метод множественной импутации стал доступен не только государственным учреждениям, но и отдельным исследователям. Среди них был и ван Бюрен. В 1999 году он и Карин Гроотхейс-Оудсхорн выпустили компьютерную программу, которая еще больше упростила ученым использование метода множественной импутации.

Затем последовали и другие программы, и множественная импутация получила более широкое распространение. После этого, в 2010 году, отчет, подготовленный по заказу FDA, настоятельно рекомендовал отказаться от однократной импутации и более старых, несистематических методов. Множественная импутация стала основным методом в медицине.

Множественная импутация оказалась одновременно строгой и универсальной. Хотя существуют и другие методы, позволяющие избежать недостатков одиночной импутации, множественная импутация является наиболее общей: она работает в любом случае, когда вы могли бы попытаться использовать одиночную импутацию.

Программное обеспечение для множественной импутации по-прежнему испытывает трудности с обработкой самых больших и сложных наборов данных. Однако новые программы для множественной импутации, использующие машинное обучение, смогли обрабатывать более сложные данные. Это, в свою очередь, привело к внедрению множественной импутации в такие области, как инженерия, где ранее были более распространены нестандартные методы. Тем не менее, некоторые исследователи по-прежнему опасаются математической строгости этих новых методов и с большей неохотой их внедряют.

Однако пока, похоже, метод множественной импутации Рубина останется с нами надолго. Будь то тестирование нового лекарства или анализ результатов голосования, случайные предположения помогают ученым оставаться честными в отношении того, что им известно.

Источник: www.quantamagazine.org

✅ Найденные теги: Данные, Когда, новости, Предположения, ученые

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Проблема доступности: почему одних благих намерений недостаточно для соответствия цифровым стандартам.
Графики потребления ультраобработанных продуктов на фоне фастфуда.
Старый монитор с текстом "Personal Computer" и логотипом Perplexity на экране.
Интерфейс модели Huihui-Qwen3.5, настройки и теги на экране.
Создание AI моделей из данных, кнопки "Попробовать" и "Записаться на демонстрацию".
ideipro logotyp
ideipro logotyp
ideipro logotyp
ideipro logotyp
Image Not Found
Два человека в смокингах и бабочках на официальном мероприятии.

Квантовый скачок к премии Тьюринга

Чарльз Беннет и Жиль Брассар были пионерами квантовой теории информации. Теперь они удостоены высшей награды в области компьютерных наук. Фотоиллюстрация: сотрудники WIRED; Getty Images Сохранить статью Сохранить эту статью Сохранить статью Сохранить эту статью Сегодня общепризнано, что…

Мар 18, 2026
Человек изучает образец в микроскопе в лаборатории, модель Zeiss Axio Imager.A1.

Ученые нашли природное вещество, которое снижает агрессию при болезни Альцгеймера

Российские ученые нашли способ уменьшить агрессию у пациентов с Альцгеймером Природное вещество, которое заметно которое позволяет заметно…

Мар 18, 2026
Человек стоит босиком на весах, измерение веса, здоровье, фитнес и контроль массы тела.

Насколько сильно следует беспокоиться о своем индексе массы тела?

Индекс массы тела (ИМТ) используется в качестве глобального стандарта для оценки здоровья, но действительно ли он что-либо говорит о…

Мар 18, 2026
Вид сверху на реактор ядерной электростанции с водой внутри.

Пентагон ищет источники энергии из ядерных отходов

Стартап из Род-Айленда работает над переработкой отработавшего ядерного топлива в долговечные энергетические системы для вооруженных…

Мар 18, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых