Абстрактные волны с цифровыми элементами и галочкой на синем фоне.

Новый метод повышает надежность статистических оценок.

Этот метод может помочь ученым в области экономики, здравоохранения и других сферах понять, можно ли доверять результатам своих экспериментов. Плавная волна данных с различными отметками на ней. Исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. Вместо предположения о сходстве исходных и целевых данных исследователи исходят из предположения, что данные плавно изменяются в пространстве. Изображение: MIT News; iStock

Допустим, учёный-эколог изучает, связана ли подверженность загрязнению воздуха с низким весом новорожденных в конкретном округе.

Они могли бы обучить модель машинного обучения для оценки величины этой взаимосвязи, поскольку методы машинного обучения особенно хорошо справляются с изучением сложных взаимосвязей.

Стандартные методы машинного обучения отлично справляются с прогнозированием и иногда предоставляют информацию о неопределенностях, например, доверительные интервалы, для этих прогнозов. Однако, как правило, они не предоставляют оценок или доверительных интервалов при определении взаимосвязи между двумя переменными. Были разработаны другие методы, специально предназначенные для решения этой проблемы взаимосвязи и предоставления доверительных интервалов. Но в пространственных контекстах исследователи из Массачусетского технологического института обнаружили, что эти доверительные интервалы могут быть совершенно неточными.

Когда такие переменные, как уровень загрязнения воздуха или количество осадков, меняются в разных местах, распространенные методы построения доверительных интервалов могут заявлять о высоком уровне достоверности, хотя на самом деле оценка совершенно не соответствует реальному значению. Такие ошибочные доверительные интервалы могут ввести пользователя в заблуждение, заставив его доверять модели, которая оказалась неэффективной.

Выявив этот недостаток, исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. В симуляциях и экспериментах с реальными данными их метод оказался единственным, который стабильно обеспечивал построение точных доверительных интервалов.

Эта работа может помочь исследователям в таких областях, как экология, экономика и эпидемиология, лучше понять, когда следует доверять результатам тех или иных экспериментов.

«Существует множество проблем, в решении которых люди заинтересованы в понимании явлений в пространстве, таких как погода или управление лесами. Мы показали, что для этого широкого класса проблем существуют более подходящие методы, которые могут обеспечить нам лучшую производительность, лучшее понимание происходящего и более достоверные результаты», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института, член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества, филиала Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и старший автор этого исследования.

В работе над статьей к Бродерику присоединились соавторы Дэвид Р. Берт, научный сотрудник, и Ренато Берлингьери, аспирант кафедры электротехники и информатики, а также Стивен Бейтс, доцент кафедры электротехники и информатики и член LIDS. Результаты исследования были недавно представлены на конференции по нейронным системам обработки информации.

Неверные предположения

Пространственная ассоциация предполагает изучение взаимосвязи между переменной и определенным результатом на определенной географической территории. Например, можно изучить, как древесный покров в Соединенных Штатах связан с высотой над уровнем моря.

Для решения подобных проблем учёный мог бы собрать данные наблюдений из множества мест и использовать их для оценки взаимосвязи в другом месте, где данных нет.

Исследователи из Массачусетского технологического института обнаружили, что в данном случае существующие методы часто генерируют совершенно неверные доверительные интервалы. Модель может утверждать, что на 95 процентов уверена в том, что ее оценка точно отражает истинную взаимосвязь между древесным покровом и высотой над уровнем моря, хотя на самом деле эта взаимосвязь совершенно не соответствует действительности.

После изучения этой проблемы исследователи пришли к выводу, что предположения, на которых основаны эти методы построения доверительных интервалов, не выполняются, когда данные различаются в пространстве.

Предположения подобны правилам, которые необходимо соблюдать для обеспечения достоверности результатов статистического анализа. Распространенные методы построения доверительных интервалов основаны на различных предположениях.

Во-первых, они предполагают, что исходные данные, то есть данные наблюдений, собранные для обучения модели, являются независимыми и одинаково распределенными. Это предположение подразумевает, что вероятность включения одного местоположения в данные не влияет на то, будет ли включено другое. Но, например, датчики качества воздуха Агентства по охране окружающей среды США (EPA) размещаются с учетом расположения других датчиков качества воздуха.

Во-вторых, существующие методы часто предполагают, что модель абсолютно корректна, но на практике это предположение никогда не выполняется. Наконец, они предполагают, что исходные данные похожи на целевые данные, которые необходимо оценить.

Однако в пространственных контекстах исходные данные могут принципиально отличаться от целевых, поскольку целевые данные находятся в другом месте, нежели то, где были собраны исходные данные.

Например, учёный может использовать данные с мониторов загрязнения окружающей среды Агентства по охране окружающей среды (EPA) для обучения модели машинного обучения, которая может прогнозировать показатели здоровья в сельской местности, где таких мониторов нет. Но мониторы загрязнения окружающей среды EPA, скорее всего, размещены в городских районах, где больше транспорта и тяжёлой промышленности, поэтому данные о качестве воздуха будут значительно отличаться от данных о качестве воздуха в сельской местности.

В данном случае оценки взаимосвязи, полученные с использованием городских данных, страдают от систематической ошибки, поскольку целевые данные систематически отличаются от исходных данных.

Плавное решение

Новый метод построения доверительных интервалов явно учитывает это потенциальное смещение.

Вместо того чтобы предполагать, что исходные и целевые данные схожи, исследователи исходят из предположения, что данные плавно изменяются в пространстве.

Например, в случае загрязнения воздуха мелкодисперсными частицами, не следует ожидать, что уровень загрязнения на одном городском квартале будет резко отличаться от уровня загрязнения на соседнем. Вместо этого уровень загрязнения будет плавно снижаться по мере удаления от источника загрязнения.

«Для подобных задач предположение о пространственной гладкости более уместно. Оно лучше соответствует тому, что на самом деле происходит в данных», — говорит Бродерик.

Сравнив свой метод с другими распространенными методами, они обнаружили, что это единственный метод, который позволяет стабильно получать надежные доверительные интервалы для пространственного анализа. Кроме того, их метод остается надежным даже при искажении наблюдательных данных случайными ошибками.

В будущем исследователи планируют применить этот анализ к различным типам переменных и изучить другие области применения, где он мог бы обеспечить более надежные результаты.

Данное исследование было частично профинансировано за счет гранта MIT Social and Ethical Responsibilities of Computing (SERC), Управления военно-морских исследований, Generali, Microsoft и Национального научного фонда (NSF).

Источник: news.mit.edu

✅ Найденные теги: МЕТОД, Надежность, новости, Оценки, Статистические, 👔Новый

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фасад здания с логотипом Merck, стеклянные окна, голубое небо.
ideipro logotyp
Смартфон с разноцветными иконками приложений на экране, лежащий на ноутбуке.
Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.
Код JavaScript и комментарии об аутентификации и безопасности сессии.
ideipro logotyp
Три портативных SSD в черных корпусах с красными акцентами.
Изображение человека в наушниках в футуристической обстановке.
Люди в музее динозавров, крупный план мешка с деньгами в стеклянной витрине.
Image Not Found
Фасад здания с логотипом Merck, стеклянные окна, голубое небо.

Влияние пациентов клиники Майо на обучение ИИ Merck: как технологии могут изменить здравоохранение

Вы читаете веб-версию информационного бюллетеня STAT об искусственном интеллекте в прогнозировании. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe/STAT Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении —…

Мар 10, 2026
ideipro logotyp

Разграничение климатических опасностей и демографических изменений в прогнозах взаимосвязи климата и здоровья

Доступ через ваше учебное заведение. Купить или оформить подписку. Прогнозы будущих последствий изменения климата предупреждают о быстро растущей нагрузке на общественное здравоохранение в предстоящем столетии1,2,3. Однако многие из этих оценок объединяют три ожидаемых, но различных фактора, определяющих…

Мар 10, 2026
Смартфон с разноцветными иконками приложений на экране, лежащий на ноутбуке.

Федеральные власти обратили внимание на уязвимости iOS, используемые при загадочных обстоятельствах.

Долгий и странный путь, пройденный с помощью большого количества сложных эксплойтов для iOS. Источник: Getty Images Источник: Getty Images Настройки текста Текст рассказа Размер Маленький Стандартный Большой Ширина * Стандартный Широкий Ссылки Стандартный Оранжевый * Только для…

Мар 10, 2026
Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

Маск не может убедить судью в том, что общественности безразлично, откуда берутся данные для обучения ИИ. Источник: Icon Sportswire / Участник | Icon Sportswire Источник: Icon Sportswire / Участник | Icon Sportswire Настройки текста Текст рассказа Размер…

Мар 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых