Абстрактные волны с цифровыми элементами и галочкой на синем фоне.

Новый метод повышает надежность статистических оценок.

Этот метод может помочь ученым в области экономики, здравоохранения и других сферах понять, можно ли доверять результатам своих экспериментов. Плавная волна данных с различными отметками на ней. Исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. Вместо предположения о сходстве исходных и целевых данных исследователи исходят из предположения, что данные плавно изменяются в пространстве. Изображение: MIT News; iStock

Допустим, учёный-эколог изучает, связана ли подверженность загрязнению воздуха с низким весом новорожденных в конкретном округе.

Они могли бы обучить модель машинного обучения для оценки величины этой взаимосвязи, поскольку методы машинного обучения особенно хорошо справляются с изучением сложных взаимосвязей.

Стандартные методы машинного обучения отлично справляются с прогнозированием и иногда предоставляют информацию о неопределенностях, например, доверительные интервалы, для этих прогнозов. Однако, как правило, они не предоставляют оценок или доверительных интервалов при определении взаимосвязи между двумя переменными. Были разработаны другие методы, специально предназначенные для решения этой проблемы взаимосвязи и предоставления доверительных интервалов. Но в пространственных контекстах исследователи из Массачусетского технологического института обнаружили, что эти доверительные интервалы могут быть совершенно неточными.

Когда такие переменные, как уровень загрязнения воздуха или количество осадков, меняются в разных местах, распространенные методы построения доверительных интервалов могут заявлять о высоком уровне достоверности, хотя на самом деле оценка совершенно не соответствует реальному значению. Такие ошибочные доверительные интервалы могут ввести пользователя в заблуждение, заставив его доверять модели, которая оказалась неэффективной.

Выявив этот недостаток, исследователи разработали новый метод, предназначенный для построения достоверных доверительных интервалов для задач, связанных с данными, изменяющимися в пространстве. В симуляциях и экспериментах с реальными данными их метод оказался единственным, который стабильно обеспечивал построение точных доверительных интервалов.

Эта работа может помочь исследователям в таких областях, как экология, экономика и эпидемиология, лучше понять, когда следует доверять результатам тех или иных экспериментов.

«Существует множество проблем, в решении которых люди заинтересованы в понимании явлений в пространстве, таких как погода или управление лесами. Мы показали, что для этого широкого класса проблем существуют более подходящие методы, которые могут обеспечить нам лучшую производительность, лучшее понимание происходящего и более достоверные результаты», — говорит Тамара Бродерик, доцент кафедры электротехники и компьютерных наук (EECS) Массачусетского технологического института, член Лаборатории информационных и систем принятия решений (LIDS) и Института данных, систем и общества, филиала Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), и старший автор этого исследования.

В работе над статьей к Бродерику присоединились соавторы Дэвид Р. Берт, научный сотрудник, и Ренато Берлингьери, аспирант кафедры электротехники и информатики, а также Стивен Бейтс, доцент кафедры электротехники и информатики и член LIDS. Результаты исследования были недавно представлены на конференции по нейронным системам обработки информации.

Неверные предположения

Пространственная ассоциация предполагает изучение взаимосвязи между переменной и определенным результатом на определенной географической территории. Например, можно изучить, как древесный покров в Соединенных Штатах связан с высотой над уровнем моря.

Для решения подобных проблем учёный мог бы собрать данные наблюдений из множества мест и использовать их для оценки взаимосвязи в другом месте, где данных нет.

Исследователи из Массачусетского технологического института обнаружили, что в данном случае существующие методы часто генерируют совершенно неверные доверительные интервалы. Модель может утверждать, что на 95 процентов уверена в том, что ее оценка точно отражает истинную взаимосвязь между древесным покровом и высотой над уровнем моря, хотя на самом деле эта взаимосвязь совершенно не соответствует действительности.

После изучения этой проблемы исследователи пришли к выводу, что предположения, на которых основаны эти методы построения доверительных интервалов, не выполняются, когда данные различаются в пространстве.

Предположения подобны правилам, которые необходимо соблюдать для обеспечения достоверности результатов статистического анализа. Распространенные методы построения доверительных интервалов основаны на различных предположениях.

Во-первых, они предполагают, что исходные данные, то есть данные наблюдений, собранные для обучения модели, являются независимыми и одинаково распределенными. Это предположение подразумевает, что вероятность включения одного местоположения в данные не влияет на то, будет ли включено другое. Но, например, датчики качества воздуха Агентства по охране окружающей среды США (EPA) размещаются с учетом расположения других датчиков качества воздуха.

Во-вторых, существующие методы часто предполагают, что модель абсолютно корректна, но на практике это предположение никогда не выполняется. Наконец, они предполагают, что исходные данные похожи на целевые данные, которые необходимо оценить.

Однако в пространственных контекстах исходные данные могут принципиально отличаться от целевых, поскольку целевые данные находятся в другом месте, нежели то, где были собраны исходные данные.

Например, учёный может использовать данные с мониторов загрязнения окружающей среды Агентства по охране окружающей среды (EPA) для обучения модели машинного обучения, которая может прогнозировать показатели здоровья в сельской местности, где таких мониторов нет. Но мониторы загрязнения окружающей среды EPA, скорее всего, размещены в городских районах, где больше транспорта и тяжёлой промышленности, поэтому данные о качестве воздуха будут значительно отличаться от данных о качестве воздуха в сельской местности.

В данном случае оценки взаимосвязи, полученные с использованием городских данных, страдают от систематической ошибки, поскольку целевые данные систематически отличаются от исходных данных.

Плавное решение

Новый метод построения доверительных интервалов явно учитывает это потенциальное смещение.

Вместо того чтобы предполагать, что исходные и целевые данные схожи, исследователи исходят из предположения, что данные плавно изменяются в пространстве.

Например, в случае загрязнения воздуха мелкодисперсными частицами, не следует ожидать, что уровень загрязнения на одном городском квартале будет резко отличаться от уровня загрязнения на соседнем. Вместо этого уровень загрязнения будет плавно снижаться по мере удаления от источника загрязнения.

«Для подобных задач предположение о пространственной гладкости более уместно. Оно лучше соответствует тому, что на самом деле происходит в данных», — говорит Бродерик.

Сравнив свой метод с другими распространенными методами, они обнаружили, что это единственный метод, который позволяет стабильно получать надежные доверительные интервалы для пространственного анализа. Кроме того, их метод остается надежным даже при искажении наблюдательных данных случайными ошибками.

В будущем исследователи планируют применить этот анализ к различным типам переменных и изучить другие области применения, где он мог бы обеспечить более надежные результаты.

Данное исследование было частично профинансировано за счет гранта MIT Social and Ethical Responsibilities of Computing (SERC), Управления военно-морских исследований, Generali, Microsoft и Национального научного фонда (NSF).

Источник: news.mit.edu

✅ Найденные теги: МЕТОД, Надежность, новости, Оценки, Статистические, 👔Новый

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Студенты в аудитории с ноутбуками и тетрадями, занимаются на лекции в университете.
Стильное кольцо на камне с ярким светящимся кругом на фоне.
Зелёный глаз крупным планом, светлые ресницы, светоотражение в зрачке.
Микротомография и анализ структуры с моделированием: съемка, 3D-модели, макро и микро масштаб.
Смартфон с логотипом Nintendo на фоне финансовых графиков.
ideipro logotyp
Генеральный директор HIMSS Хэл Вольф и генеральный директор AdventHealth Дэвид Бэнкс дают старт саммиту руководителей | Новости финансового сектора здравоохранения
Google Stax: проверка моделей и подсказок на соответствие собственным критериям.
Визуализация векторизации данных: ускоренная обработка с использованием колонн.
Image Not Found
Стильное кольцо на камне с ярким светящимся кругом на фоне.

«Умное» кольцо Switch Ring для глубокого сна и контроля стресса

Switch Ring — это «умное» кольцо, которое выполняет роль персонального тренера сна и помощника по ежедневному самочувствию. Благодаря технологии SomnoSync™ устройство не просто фиксирует показатели, а активно помогает организму быстрее расслабляться и глубже восстанавливаться ночью. В основе…

Мар 10, 2026
Зелёный глаз крупным планом, светлые ресницы, светоотражение в зрачке.

Ретинальная ретинопатия: обновление для лечения амблиопии

Анестезия сетчатки «ленивого» глаза всего на два дня может восстановить зрение у мышей. SKITTERФОТО ЧЕРЕЗ ВИКИМЕДИЯ ОБЩИЕ При амблиопии (или «ленивом глазе») нарушение зрения в одном глазу в раннем детстве приводит к смещению нейронных связей в зрительной…

Мар 10, 2026
Микротомография и анализ структуры с моделированием: съемка, 3D-модели, макро и микро масштаб.

Добыча газа в Арктике станет безопаснее

Как создаются цифровые двойники коллектора © Валерий Химуля. Ученые предложили комплексный подход к исследованию пластов сложных газовых месторождений в Арктике: они объединили геомеханические методы с цифровой рентгеновской томографией и 3D-моделированием, чтобы точно определить условия разрушения пород вокруг…

Мар 10, 2026
Смартфон с логотипом Nintendo на фоне финансовых графиков.

Компания Nintendo подала в суд на правительство США с требованием возмещения таможенных пошлин.

Вкратце Источник изображений: Omar Marques/SOPA Images/LightRocket / Getty Images В пятницу компания Nintendo подала иск против правительства США по поводу взимания пошлин с предприятий по всему миру. Игровой гигант требует возмещения любых пошлин, уплаченных в связи с…

Мар 10, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых