Абстрактные волны с цифровыми элементами и галочкой на синем фоне.

Новый метод повышает надежность статистических оценок.

Этот метод может помочь ученым в области экономики, здравоохранения и других сферах понять, можно ли доверять результатам своих экспериментов. Плавная волна данных с различными отметками на ней. Исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. Вместо предположения о сходстве исходных и целевых данных исследователи исходят из предположения, что данные плавно изменяются в пространстве. Изображение: MIT News; iStock

Допустим, учёный-эколог изучает, связана ли подверженность загрязнению воздуха с низким весом новорожденных в конкретном округе.

Они могли бы обучить модель машинного обучения для оценки величины этой взаимосвязи, поскольку методы машинного обучения особенно хорошо справляются с изучением сложных взаимосвязей.

Стандартные методы машинного обучения отлично справляются с прогнозированием и иногда предоставляют информацию о неопределенностях, например, доверительные интервалы, для этих прогнозов. Однако, как правило, они не предоставляют оценок или доверительных интервалов при определении взаимосвязи между двумя переменными. Были разработаны другие методы, специально предназначенные для решения этой проблемы взаимосвязи и предоставления доверительных интервалов. Но в пространственных контекстах исследователи из Массачусетского технологического института обнаружили, что эти доверительные интервалы могут быть совершенно неточными.

Когда такие переменные, как уровень загрязнения воздуха или количество осадков, меняются в разных местах, распространенные методы построения доверительных интервалов могут заявлять о высоком уровне достоверности, хотя на самом деле оценка совершенно не соответствует реальному значению. Такие ошибочные доверительные интервалы могут ввести пользователя в заблуждение, заставив его доверять модели, которая оказалась неэффективной.

Выявив этот недостаток, исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. В симуляциях и экспериментах с реальными данными их метод оказался единственным, который стабильно обеспечивал построение точных доверительных интервалов.

Эта работа может помочь исследователям в таких областях, как экология, экономика и эпидемиология, лучше понять, когда следует доверять результатам тех или иных экспериментов.

«Существует множество проблем, в решении которых люди заинтересованы в понимании явлений в пространстве, таких как погода или управление лесами. Мы показали, что для этого широкого класса проблем существуют более подходящие методы, которые могут обеспечить нам лучшую производительность, лучшее понимание происходящего и более достоверные результаты», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института, член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества, филиала Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и старший автор этого исследования.

В работе над статьей к Бродерику присоединились соавторы Дэвид Р. Берт, научный сотрудник, и Ренато Берлингьери, аспирант кафедры электротехники и информатики, а также Стивен Бейтс, доцент кафедры электротехники и информатики и член LIDS. Результаты исследования были недавно представлены на конференции по нейронным системам обработки информации.

Неверные предположения

Пространственная ассоциация предполагает изучение взаимосвязи между переменной и определенным результатом на определенной географической территории. Например, можно изучить, как древесный покров в Соединенных Штатах связан с высотой над уровнем моря.

Для решения подобных проблем учёный мог бы собрать данные наблюдений из множества мест и использовать их для оценки взаимосвязи в другом месте, где данных нет.

Исследователи из Массачусетского технологического института обнаружили, что в данном случае существующие методы часто генерируют совершенно неверные доверительные интервалы. Модель может утверждать, что на 95 процентов уверена в том, что ее оценка точно отражает истинную взаимосвязь между древесным покровом и высотой над уровнем моря, хотя на самом деле эта взаимосвязь совершенно не соответствует действительности.

После изучения этой проблемы исследователи пришли к выводу, что предположения, на которых основаны эти методы построения доверительных интервалов, не выполняются, когда данные различаются в пространстве.

Предположения подобны правилам, которые необходимо соблюдать для обеспечения достоверности результатов статистического анализа. Распространенные методы построения доверительных интервалов основаны на различных предположениях.

Во-первых, они предполагают, что исходные данные, то есть данные наблюдений, собранные для обучения модели, являются независимыми и одинаково распределенными. Это предположение подразумевает, что вероятность включения одного местоположения в данные не влияет на то, будет ли включено другое. Но, например, датчики качества воздуха Агентства по охране окружающей среды США (EPA) размещаются с учетом расположения других датчиков качества воздуха.

Во-вторых, существующие методы часто предполагают, что модель абсолютно корректна, но на практике это предположение никогда не выполняется. Наконец, они предполагают, что исходные данные похожи на целевые данные, которые необходимо оценить.

Однако в пространственных контекстах исходные данные могут принципиально отличаться от целевых, поскольку целевые данные находятся в другом месте, нежели то, где были собраны исходные данные.

Например, учёный может использовать данные с мониторов загрязнения окружающей среды Агентства по охране окружающей среды (EPA) для обучения модели машинного обучения, которая может прогнозировать показатели здоровья в сельской местности, где таких мониторов нет. Но мониторы загрязнения окружающей среды EPA, скорее всего, размещены в городских районах, где больше транспорта и тяжёлой промышленности, поэтому данные о качестве воздуха будут значительно отличаться от данных о качестве воздуха в сельской местности.

В данном случае оценки взаимосвязи, полученные с использованием городских данных, страдают от систематической ошибки, поскольку целевые данные систематически отличаются от исходных данных.

Плавное решение

Новый метод построения доверительных интервалов явно учитывает это потенциальное смещение.

Вместо того чтобы предполагать, что исходные и целевые данные схожи, исследователи исходят из предположения, что данные плавно изменяются в пространстве.

Например, в случае загрязнения воздуха мелкодисперсными частицами, не следует ожидать, что уровень загрязнения на одном городском квартале будет резко отличаться от уровня загрязнения на соседнем. Вместо этого уровень загрязнения будет плавно снижаться по мере удаления от источника загрязнения.

«Для подобных задач предположение о пространственной гладкости более уместно. Оно лучше соответствует тому, что на самом деле происходит в данных», — говорит Бродерик.

Сравнив свой метод с другими распространенными методами, они обнаружили, что это единственный метод, который позволяет стабильно получать надежные доверительные интервалы для пространственного анализа. Кроме того, их метод остается надежным даже при искажении наблюдательных данных случайными ошибками.

В будущем исследователи планируют применить этот анализ к различным типам переменных и изучить другие области применения, где он мог бы обеспечить более надежные результаты.

Данное исследование было частично профинансировано за счет гранта MIT Social and Ethical Responsibilities of Computing (SERC), Управления военно-морских исследований, Generali, Microsoft и Национального научного фонда (NSF).

Источник: news.mit.edu

✅ Найденные теги: МЕТОД, Надежность, новости, Оценки, Статистические, 👔Новый

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Визуализация векторизации данных: ускоренная обработка с использованием колонн.
Человек в клетке с весами вместо решетки, символизирующими зависимость от веса.
Обезьяна в горячем источнике зимой, Япония, снежный пейзаж.
Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.
ideipro logotyp
В условиях, когда ставки как никогда высоки, кибербезопасность в здравоохранении должна соответствовать требованиям момента | Новости информационных технологий в здравоохранении
Фасад здания с логотипом Merck, стеклянные окна, голубое небо.
ideipro logotyp
Смартфон с разноцветными иконками приложений на экране, лежащий на ноутбуке.
Image Not Found
Визуализация векторизации данных: ускоренная обработка с использованием колонн.

Почему вам следует прекратить писать циклы в Pandas

Как мыслить в столбик, писать более быстрый код и, наконец, использовать Pandas как профессионал. Делиться Создано с помощью Gemini AI Ладно, признаюсь честно: когда я только начинал использовать Pandas, я постоянно писал циклы вот такого типа: for…

Мар 10, 2026
Человек в клетке с весами вместо решетки, символизирующими зависимость от веса.

Индекс массы тела (ИМТ) мало что может рассказать о вашем здоровье – вот что может.

Люди, классифицируемые как имеющие избыточный вес по индексу массы тела (ИМТ), могут быть совершенно здоровы. Но существуют более точные методы измерения содержания жира, и врачи, наконец, начинают их использовать. Мартин Леон Баррето Я была так рада своей…

Мар 10, 2026
Обезьяна в горячем источнике зимой, Япония, снежный пейзаж.

Что на самом деле делают с телами снежных обезьян горячие ванны?

Когда японские макаки погружаются в горячие источники, они, возможно, не только согреваются, но и ухаживают за своей микрофлорой. Купание незаметно изменило их микрофлору и состав кишечной микрофлоры, не увеличивая при этом количество паразитарных инфекций. Фото: Shutterstock Японские…

Мар 10, 2026
Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.

Компания Neuspera сообщает о положительных результатах испытаний устройства для лечения недержания мочи при императивных позывах.

Система Neuspera представляет собой сверхминиатюрный имплант, питаемый от внешнего передатчика. Фото: mi_viri / Shutterstock.com. Компания Neuspera Medical сообщила об обнадеживающих результатах 12-месячного ключевого клинического исследования своей интегрированной системы сакральной нейромодуляции (iSNM) Neuspera SNM у пациентов с императивным…

Мар 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых