Этот метод может помочь ученым в области экономики, здравоохранения и других сферах понять, можно ли доверять результатам своих экспериментов.
Исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. Вместо предположения о сходстве исходных и целевых данных исследователи исходят из предположения, что данные плавно изменяются в пространстве. Изображение: MIT News; iStock
Допустим, учёный-эколог изучает, связана ли подверженность загрязнению воздуха с низким весом новорожденных в конкретном округе.
Они могли бы обучить модель машинного обучения для оценки величины этой взаимосвязи, поскольку методы машинного обучения особенно хорошо справляются с изучением сложных взаимосвязей.
Стандартные методы машинного обучения отлично справляются с прогнозированием и иногда предоставляют информацию о неопределенностях, например, доверительные интервалы, для этих прогнозов. Однако, как правило, они не предоставляют оценок или доверительных интервалов при определении взаимосвязи между двумя переменными. Были разработаны другие методы, специально предназначенные для решения этой проблемы взаимосвязи и предоставления доверительных интервалов. Но в пространственных контекстах исследователи из Массачусетского технологического института обнаружили, что эти доверительные интервалы могут быть совершенно неточными.
Когда такие переменные, как уровень загрязнения воздуха или количество осадков, меняются в разных местах, распространенные методы построения доверительных интервалов могут заявлять о высоком уровне достоверности, хотя на самом деле оценка совершенно не соответствует реальному значению. Такие ошибочные доверительные интервалы могут ввести пользователя в заблуждение, заставив его доверять модели, которая оказалась неэффективной.
Выявив этот недостаток, исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. В симуляциях и экспериментах с реальными данными их метод оказался единственным, который стабильно обеспечивал построение точных доверительных интервалов.
Эта работа может помочь исследователям в таких областях, как экология, экономика и эпидемиология, лучше понять, когда следует доверять результатам тех или иных экспериментов.
«Существует множество проблем, в решении которых люди заинтересованы в понимании явлений в пространстве, таких как погода или управление лесами. Мы показали, что для этого широкого класса проблем существуют более подходящие методы, которые могут обеспечить нам лучшую производительность, лучшее понимание происходящего и более достоверные результаты», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института, член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества, филиала Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и старший автор этого исследования.
В работе над статьей к Бродерику присоединились соавторы Дэвид Р. Берт, научный сотрудник, и Ренато Берлингьери, аспирант кафедры электротехники и информатики, а также Стивен Бейтс, доцент кафедры электротехники и информатики и член LIDS. Результаты исследования были недавно представлены на конференции по нейронным системам обработки информации.
Неверные предположения
Пространственная ассоциация предполагает изучение взаимосвязи между переменной и определенным результатом на определенной географической территории. Например, можно изучить, как древесный покров в Соединенных Штатах связан с высотой над уровнем моря.
Для решения подобных проблем учёный мог бы собрать данные наблюдений из множества мест и использовать их для оценки взаимосвязи в другом месте, где данных нет.
Исследователи из Массачусетского технологического института обнаружили, что в данном случае существующие методы часто генерируют совершенно неверные доверительные интервалы. Модель может утверждать, что на 95 процентов уверена в том, что ее оценка точно отражает истинную взаимосвязь между древесным покровом и высотой над уровнем моря, хотя на самом деле эта взаимосвязь совершенно не соответствует действительности.
После изучения этой проблемы исследователи пришли к выводу, что предположения, на которых основаны эти методы построения доверительных интервалов, не выполняются, когда данные различаются в пространстве.
Предположения подобны правилам, которые необходимо соблюдать для обеспечения достоверности результатов статистического анализа. Распространенные методы построения доверительных интервалов основаны на различных предположениях.
Во-первых, они предполагают, что исходные данные, то есть данные наблюдений, собранные для обучения модели, являются независимыми и одинаково распределенными. Это предположение подразумевает, что вероятность включения одного местоположения в данные не влияет на то, будет ли включено другое. Но, например, датчики качества воздуха Агентства по охране окружающей среды США (EPA) размещаются с учетом расположения других датчиков качества воздуха.
Во-вторых, существующие методы часто предполагают, что модель абсолютно корректна, но на практике это предположение никогда не выполняется. Наконец, они предполагают, что исходные данные похожи на целевые данные, которые необходимо оценить.
Однако в пространственных контекстах исходные данные могут принципиально отличаться от целевых, поскольку целевые данные находятся в другом месте, нежели то, где были собраны исходные данные.
Например, учёный может использовать данные с мониторов загрязнения окружающей среды Агентства по охране окружающей среды (EPA) для обучения модели машинного обучения, которая может прогнозировать показатели здоровья в сельской местности, где таких мониторов нет. Но мониторы загрязнения окружающей среды EPA, скорее всего, размещены в городских районах, где больше транспорта и тяжёлой промышленности, поэтому данные о качестве воздуха будут значительно отличаться от данных о качестве воздуха в сельской местности.
В данном случае оценки взаимосвязи, полученные с использованием городских данных, страдают от систематической ошибки, поскольку целевые данные систематически отличаются от исходных данных.
Плавное решение
Новый метод построения доверительных интервалов явно учитывает это потенциальное смещение.
Вместо того чтобы предполагать, что исходные и целевые данные схожи, исследователи исходят из предположения, что данные плавно изменяются в пространстве.
Например, в случае загрязнения воздуха мелкодисперсными частицами, не следует ожидать, что уровень загрязнения на одном городском квартале будет резко отличаться от уровня загрязнения на соседнем. Вместо этого уровень загрязнения будет плавно снижаться по мере удаления от источника загрязнения.
«Для подобных задач предположение о пространственной гладкости более уместно. Оно лучше соответствует тому, что на самом деле происходит в данных», — говорит Бродерик.
Сравнив свой метод с другими распространенными методами, они обнаружили, что это единственный метод, который позволяет стабильно получать надежные доверительные интервалы для пространственного анализа. Кроме того, их метод остается надежным даже при искажении наблюдательных данных случайными ошибками.
В будущем исследователи планируют применить этот анализ к различным типам переменных и изучить другие области применения, где он мог бы обеспечить более надежные результаты.
Данное исследование было частично профинансировано за счет гранта MIT Social and Ethical Responsibilities of Computing (SERC), Управления военно-морских исследований, Generali, Microsoft и Национального научного фонда (NSF).
Источник: news.mit.edu























