Глобальные данные: передача информации от Земли к цифровым графикам и таблицам.

От NetCDF к аналитическим выводам: практический подход к анализу климатических рисков на городском уровне.

Интеграция прогнозов CMIP6, реанализа ERA5 и моделей воздействия в простой и понятный рабочий процесс.

Делиться

cddb807ed158def9833fe4240991ca66
Концептуальная иллюстрация преобразования необработанных климатических данных в структурированные, готовые к принятию решений аналитические выводы (Изображение предоставлено автором)

В исследованиях климата произошел существенный переход к работе с большими массивами данных. Крупномасштабные модели земной системы (ESM) и продукты реанализа, такие как CMIP6 и ERA5, перестали быть просто хранилищами научных данных и превратились в огромные многомерные пространственно-временные наборы данных петабайтного размера, требующие масштабной обработки данных, прежде чем их можно будет использовать для анализа.

С точки зрения машинного обучения и архитектуры данных, процесс преобразования научных данных о климате в политику напоминает классический конвейер: сбор исходных данных, разработка признаков, детерминированное моделирование и создание конечного продукта. Тем не менее, в отличие от традиционного машинного обучения на табличных данных, вычислительная климатология поднимает такие гораздо более сложные вопросы, как нерегулярные пространственно-временные масштабы, нелинейные пороговые значения, специфичные для каждого климата, и необходимость сохранения физической интерпретируемости.

В данной статье представлен облегченный и практичный конвейер обработки данных, который устраняет разрыв между обработкой исходных климатических данных и прикладным моделированием воздействия, преобразуя наборы данных NetCDF в интерпретируемые данные о рисках на уровне городов.

Проблема: от необработанных тензоров к готовым к принятию решения аналитическим выводам.

Несмотря на беспрецедентный объем глобальных климатических данных высокого разрешения, преобразование их в локальные и практически применимые выводы остается непростой задачей. В большинстве случаев проблема заключается не в отсутствии данных, а в сложности их формата.

Климатические данные обычно сохраняются в формате Network Common Data Form (NetCDF). Эти файлы:

  • Содержат огромные многомерные массивы (тензоры обычно имеют форму «время × широта × долгота × переменные»).
  • Для проведения статистического анализа необходимы как достаточно сильное пространственное маскирование, так и временное агрегирование, а также выравнивание системы координат.
  • По своей природе они не понятны для табличных структур (например, баз данных SQL или DataFrames Pandas), которые обычно используются градостроителями и экономистами.

Подобное нарушение структуры приводит к разрыву в переводе: исходные физические данные есть, но социально-экономические выводы, которые должны быть получены детерминистическим путем, отсутствуют.

Основные источники данных

Одним из аспектов надежного конвейера разработки является его способность интегрировать традиционные базовые показатели с прогнозами на будущее:

  • Реанализ ERA5: предоставляет данные о климате за прошлые периоды (1991-2020 гг.), такие как температура и влажность.
  • Прогнозы CMIP6: Предлагают потенциальные сценарии изменения климата в будущем, основанные на различных траекториях выбросов.

Используя эти источники данных, можно проводить локальное обнаружение аномалий, вместо того чтобы полагаться исключительно на глобальные средние значения.

Базовые показатели для конкретных мест: определение экстремальной жары

Критически важным вопросом в анализе климата является определение «экстремальных» условий. Фиксированный глобальный порог (например, 35°C) недостаточен, поскольку локальная адаптация сильно различается от региона к региону.

Таким образом, мы характеризуем экстремальную жару с помощью порогового значения, основанного на процентилях и полученного из исторических данных:

 import numpy as np import xarray as xr def compute_local_threshold(tmax_series: xr.DataArray, percentile: int = 95) -> float: return np.percentile(tmax_series, percentile) T_threshold = compute_local_threshold(Tmax_historical_baseline)

Такой подход гарантирует, что экстремальные явления определяются относительно местных климатических условий, что делает анализ более контекстно-ориентированным и содержательным.

Разработка термодинамических характеристик: температура влажного термометра

Сама по себе температура недостаточна для точного определения теплового стресса у человека. Влажность, которая влияет на механизм охлаждения организма посредством испарения, также является важным фактором. Температура влажного термометра (ТВТ), представляющая собой комбинацию температуры и влажности, является хорошим индикатором физиологического стресса. Вот формула, которую мы используем, основанная на приближении Стулла (2011), которая проста и быстро вычисляется:

 import numpy as np def compute_wet_bulb_temperature(T: float, RH: float) -> float: wbt = ( T * np.arctan(0.151977 * np.sqrt(RH + 8.313659)) + np.arctan(T + RH) - np.arctan(RH - 1.676331) + 0.00391838 * RH**1.5 * np.arctan(0.023101 * RH) - 4.686035 ) return wbt

Длительное поддержание температуры влажного термометра выше 31–35 °C приближается к пределу выживаемости человека, что делает этот фактор критически важным при моделировании рисков.

Преобразование климатических данных в результаты деятельности человека

Чтобы выйти за рамки физических переменных, мы переводим воздействие климата в последствия для человека, используя упрощенную эпидемиологическую модель.

 def estimate_heat_mortality(population, base_death_rate, exposure_days, AF): return population * base_death_rate * exposure_days * AF

В данном случае смертность моделируется как функция численности населения, базового уровня смертности, продолжительности воздействия и доли риска, обусловленной воздействием.

Несмотря на упрощение, эта формулировка позволяет преобразовать температурные аномалии в понятные показатели воздействия, такие как предполагаемая избыточная смертность.

Моделирование экономического воздействия

Изменение климата также влияет на экономическую производительность. Эмпирические исследования показывают нелинейную зависимость между температурой и объемом экономического производства, при этом производительность снижается при более высоких температурах.
Мы аппроксимируем это с помощью простой полиномиальной функции:

 def compute_economic_loss(temp_anomaly): return 0.0127 * (temp_anomaly - 13)**2

Хотя и в упрощенном виде, это отражает ключевой вывод о том, что экономические потери ускоряются по мере отклонения температуры от оптимальных условий.

Пример из практики: Сравнение климатических условий

Для иллюстрации процесса мы рассмотрим два контрастных города:

  • Джакобабад (Пакистан) : город с экстремально высокой базовой температурой.
  • Якутск (Россия) : город с холодным базовым климатом.
c80584c518ebc94a806b916ae1063286
Локализованные пороговые значения P95, демонстрирующие, как определяется экстремальная жара относительно регионального распределения температур, а не фиксированных глобальных пределов (Изображение предоставлено автором).
Город Население Исходный уровень смертности/год Риск перегрева (%) Предполагаемое количество смертей от жары в год
Джакобабад 1,17 млн. ~8200 0,5% ~41
Якутск 0,36М ~4700 0,1% ~5

Несмотря на использование одного и того же конвейера обработки данных, результаты значительно различаются из-за местных климатических условий. Это подчеркивает важность моделирования с учетом контекста.

Архитектура конвейера обработки данных: от данных к аналитическим выводам.

Весь процесс осуществляется в соответствии со структурированной схемой:

 import xarray as xr import numpy as np ds = xr.open_dataset("cmip6_climate_data.nc") tmax = ds["tasmax"].sel(lat=28.27, lon=68.43, method="nearest") threshold = np.percentile(tmax.sel(time=slice("1991", "2020")), 95) future_tmax = tmax.sel(time=slice("2030", "2050")) heat_days_mask = future_tmax > threshold 
8b3bed0700f5340046816b2ae9de3a2d
Полный цикл работы, от загрузки исходных данных в формате NetCDF до моделирования воздействия (Изображение предоставлено автором)

Этот метод можно разделить на ряд шагов, отражающих традиционный рабочий процесс в области анализа данных. Он начинается с ввода данных, который включает загрузку необработанных файлов NetCDF в вычислительную систему. Затем выполняется извлечение пространственных признаков, в ходе которого определяются соответствующие переменные, такие как максимальная температура, для определенных географических координат. Следующий шаг — вычисление базового уровня, использующее исторические данные для определения порогового значения на основе процентилей, которое обозначает экстремальные ситуации.

В точке, где установлен базовый уровень, система обнаружения аномалий выявляет будущие временные интервалы, когда температура превысит пороговое значение, то есть, по сути, идентифицирует тепловые явления. Наконец, эти выявленные события передаются в модели воздействия, которые преобразуют их в понятные результаты, такие как количество смертей и экономический ущерб.

При надлежащей оптимизации эта последовательность операций позволяет эффективно обрабатывать крупномасштабные наборы климатических данных, преобразуя сложные многомерные данные в структурированные и интерпретируемые результаты.

Ограничения и предположения

Как и любой аналитический алгоритм, этот также зависит от ряда упрощающих предположений, которые следует учитывать при интерпретации результатов. Оценки смертности основаны на предположении об однородной уязвимости населения, что практически не отражает различий в возрастном распределении, социальных условиях или наличии инфраструктуры, такой как системы охлаждения и т. д. Оценка экономического воздействия одновременно описывает очень приблизительную картину ситуации и полностью игнорирует чувствительность различных секторов и стратегии адаптации в определенных регионах. Кроме того, существует внутренняя неопределенность самих климатических прогнозов, обусловленная разнообразием климатических моделей и сценариями выбросов в будущем. Наконец, пространственное разрешение глобальных наборов данных может ослаблять эффект локальных очагов, таких как городские тепловые острова, что может привести к потенциальной недооценке риска в густонаселенной городской среде.

В целом, эти ограничения указывают на то, что результаты работы данного алгоритма не следует воспринимать буквально как точные прогнозы, а скорее как предварительные оценки, которые могут дать представление о направлении развития.

Ключевые выводы

Этот алгоритм иллюстрирует некоторые ключевые аспекты на стыке климатологии и науки о данных. Во-первых, основная трудность в климатических исследованиях заключается не в сложности моделирования, а в огромных усилиях по обработке данных, необходимых для преобразования необработанных многомерных наборов данных в пригодные для использования форматы. Во-вторых, интеграция моделей из нескольких областей — объединение климатических данных с эпидемиологическими и экономическими моделями — часто обеспечивает наибольшую практическую ценность, чем просто улучшение отдельного компонента. Кроме того, прозрачность и интерпретируемость оказываются важными принципами проектирования, поскольку хорошо организованные и легко отслеживаемые рабочие процессы позволяют проводить проверку, повышать доверие и способствовать более широкому внедрению среди ученых и лиц, принимающих решения.

Заключение

Климатические данные обширны, но сложны. Без создания структурированных механизмов их ценность останется скрытой от лиц, принимающих решения.

Используя принципы инженерии данных и интегрируя модели, специфичные для конкретной области, можно преобразовать исходные данные NetCDF в функциональные климатические прогнозы на уровне городов. Этот же подход служит иллюстрацией того, как наука о данных может сыграть важную роль в преодолении разрыва между климатологами и лицами, принимающими решения.

Простую реализацию этого конвейера можно посмотреть здесь для наглядности:
https://openplanet-ai.vercel.app/

Ссылки

  • [1] Гаспаррини А., Смертность, связанная с температурой (2017), Lancet Planetary Health
  • [2] Берк М., Температура и экономическое производство (2018), Nature
  • [3] Стулл Р., Температура влажного термометра (2011), Журнал прикладной метеорологии
  • [4] Херсбах Х., Реанализ ERA5 (2020), ECMWF

Аакаш Госвами. Все материалы от Аакаша Госвами.

Источник: towardsdatascience.com

✅ Найденные теги: NetCDF, Анализ, Аналитика, Городской Уровень, Климатические Риски, новости, От

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ideipro logotyp
Графическое изображение людей в медицинской форме на фоне финансовых графиков.
Диаграмма потока данных исследования медицинских консультаций и исключений.
Блок-схема рандомизации и исключения участников исследования.
Женщина заряжает электромобиль на станции. Современный кроссовер на фоне зелёных деревьев.
Логотип Google на фоне яркого солнечного света, вид сверху, ясное голубое небо.
ideipro logotyp
Вафельный конус выглядит как облако на фоне голубого неба, сочетание природы и фантазии.
ideipro logotyp
Image Not Found
ideipro logotyp

Биспецифический препарат компании Sanofi в два раза чаще выигрывал вторую фазу клинических испытаний при респираторных заболеваниях, но провалил исследование при экземе.

Ингибитор TSLP и IL-13 компании Sanofi успешно прошел два промежуточных этапа исследований при респираторных заболеваниях, но не справился с клиническими испытаниями фазы 2 при экземе. Препарат, получивший название лунсекимиг, достиг основной цели – статистически значимого снижения числа…

Апр 8, 2026
Графическое изображение людей в медицинской форме на фоне финансовых графиков.

STAT+: Вездесущая сила профессий в сфере здравоохранения

Вы читаете информационный бюллетень STAT Health Care Inc. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Камиль Макмиллин/STAT Это онлайн-версия еженедельной электронной рассылки STAT «Health Care Inc.». Подписаться можно здесь. На…

Апр 8, 2026
Диаграмма потока данных исследования медицинских консультаций и исключений.

Влияние комплексной программы рационального использования антибиотиков на назначение антибиотиков при острых респираторных инфекциях в сельских медицинских учреждениях: кластерное рандомизированное исследование.

Абстрактный Устойчивость к противомикробным препаратам обусловлена ненадлежащим использованием антибиотиков при острых респираторных инфекциях (ОРИ), что является серьезной проблемой в первичном звене здравоохранения в странах с низким и средним уровнем дохода. В данном исследовании мы провели прагматическое кластерное…

Апр 8, 2026
Блок-схема рандомизации и исключения участников исследования.

Влияние комплексной программы рационального использования антибиотиков на назначение антибиотиков при острых респираторных инфекциях в сельских медицинских учреждениях: кластерное рандомизированное исследование.

Абстрактный Устойчивость к противомикробным препаратам обусловлена ненадлежащим использованием антибиотиков при острых респираторных инфекциях (ОРИ), что является серьезной проблемой в первичном звене здравоохранения в странах с низким и средним уровнем дохода. В данном исследовании мы провели прагматическое кластерное…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых