Интеграция прогнозов CMIP6, реанализа ERA5 и моделей воздействия в простой и понятный рабочий процесс.
Делиться

В исследованиях климата произошел существенный переход к работе с большими массивами данных. Крупномасштабные модели земной системы (ESM) и продукты реанализа, такие как CMIP6 и ERA5, перестали быть просто хранилищами научных данных и превратились в огромные многомерные пространственно-временные наборы данных петабайтного размера, требующие масштабной обработки данных, прежде чем их можно будет использовать для анализа.
С точки зрения машинного обучения и архитектуры данных, процесс преобразования научных данных о климате в политику напоминает классический конвейер: сбор исходных данных, разработка признаков, детерминированное моделирование и создание конечного продукта. Тем не менее, в отличие от традиционного машинного обучения на табличных данных, вычислительная климатология поднимает такие гораздо более сложные вопросы, как нерегулярные пространственно-временные масштабы, нелинейные пороговые значения, специфичные для каждого климата, и необходимость сохранения физической интерпретируемости.
В данной статье представлен облегченный и практичный конвейер обработки данных, который устраняет разрыв между обработкой исходных климатических данных и прикладным моделированием воздействия, преобразуя наборы данных NetCDF в интерпретируемые данные о рисках на уровне городов.
Проблема: от необработанных тензоров к готовым к принятию решения аналитическим выводам.
Несмотря на беспрецедентный объем глобальных климатических данных высокого разрешения, преобразование их в локальные и практически применимые выводы остается непростой задачей. В большинстве случаев проблема заключается не в отсутствии данных, а в сложности их формата.
Климатические данные обычно сохраняются в формате Network Common Data Form (NetCDF). Эти файлы:
- Содержат огромные многомерные массивы (тензоры обычно имеют форму «время × широта × долгота × переменные»).
- Для проведения статистического анализа необходимы как достаточно сильное пространственное маскирование, так и временное агрегирование, а также выравнивание системы координат.
- По своей природе они не понятны для табличных структур (например, баз данных SQL или DataFrames Pandas), которые обычно используются градостроителями и экономистами.
Подобное нарушение структуры приводит к разрыву в переводе: исходные физические данные есть, но социально-экономические выводы, которые должны быть получены детерминистическим путем, отсутствуют.
Основные источники данных
Одним из аспектов надежного конвейера разработки является его способность интегрировать традиционные базовые показатели с прогнозами на будущее:
- Реанализ ERA5: предоставляет данные о климате за прошлые периоды (1991-2020 гг.), такие как температура и влажность.
- Прогнозы CMIP6: Предлагают потенциальные сценарии изменения климата в будущем, основанные на различных траекториях выбросов.
Используя эти источники данных, можно проводить локальное обнаружение аномалий, вместо того чтобы полагаться исключительно на глобальные средние значения.
Базовые показатели для конкретных мест: определение экстремальной жары
Критически важным вопросом в анализе климата является определение «экстремальных» условий. Фиксированный глобальный порог (например, 35°C) недостаточен, поскольку локальная адаптация сильно различается от региона к региону.
Таким образом, мы характеризуем экстремальную жару с помощью порогового значения, основанного на процентилях и полученного из исторических данных:
import numpy as np import xarray as xr def compute_local_threshold(tmax_series: xr.DataArray, percentile: int = 95) -> float: return np.percentile(tmax_series, percentile) T_threshold = compute_local_threshold(Tmax_historical_baseline)Такой подход гарантирует, что экстремальные явления определяются относительно местных климатических условий, что делает анализ более контекстно-ориентированным и содержательным.
Разработка термодинамических характеристик: температура влажного термометра
Сама по себе температура недостаточна для точного определения теплового стресса у человека. Влажность, которая влияет на механизм охлаждения организма посредством испарения, также является важным фактором. Температура влажного термометра (ТВТ), представляющая собой комбинацию температуры и влажности, является хорошим индикатором физиологического стресса. Вот формула, которую мы используем, основанная на приближении Стулла (2011), которая проста и быстро вычисляется:
import numpy as np def compute_wet_bulb_temperature(T: float, RH: float) -> float: wbt = ( T * np.arctan(0.151977 * np.sqrt(RH + 8.313659)) + np.arctan(T + RH) - np.arctan(RH - 1.676331) + 0.00391838 * RH**1.5 * np.arctan(0.023101 * RH) - 4.686035 ) return wbtДлительное поддержание температуры влажного термометра выше 31–35 °C приближается к пределу выживаемости человека, что делает этот фактор критически важным при моделировании рисков.
Преобразование климатических данных в результаты деятельности человека
Чтобы выйти за рамки физических переменных, мы переводим воздействие климата в последствия для человека, используя упрощенную эпидемиологическую модель.
def estimate_heat_mortality(population, base_death_rate, exposure_days, AF): return population * base_death_rate * exposure_days * AFВ данном случае смертность моделируется как функция численности населения, базового уровня смертности, продолжительности воздействия и доли риска, обусловленной воздействием.
Несмотря на упрощение, эта формулировка позволяет преобразовать температурные аномалии в понятные показатели воздействия, такие как предполагаемая избыточная смертность.
Моделирование экономического воздействия
Изменение климата также влияет на экономическую производительность. Эмпирические исследования показывают нелинейную зависимость между температурой и объемом экономического производства, при этом производительность снижается при более высоких температурах.
Мы аппроксимируем это с помощью простой полиномиальной функции:
def compute_economic_loss(temp_anomaly): return 0.0127 * (temp_anomaly - 13)**2Хотя и в упрощенном виде, это отражает ключевой вывод о том, что экономические потери ускоряются по мере отклонения температуры от оптимальных условий.
Пример из практики: Сравнение климатических условий
Для иллюстрации процесса мы рассмотрим два контрастных города:
- Джакобабад (Пакистан) : город с экстремально высокой базовой температурой.
- Якутск (Россия) : город с холодным базовым климатом.

| Город | Население | Исходный уровень смертности/год | Риск перегрева (%) | Предполагаемое количество смертей от жары в год |
|---|---|---|---|---|
| Джакобабад | 1,17 млн. | ~8200 | 0,5% | ~41 |
| Якутск | 0,36М | ~4700 | 0,1% | ~5 |
Несмотря на использование одного и того же конвейера обработки данных, результаты значительно различаются из-за местных климатических условий. Это подчеркивает важность моделирования с учетом контекста.
Архитектура конвейера обработки данных: от данных к аналитическим выводам.
Весь процесс осуществляется в соответствии со структурированной схемой:
import xarray as xr import numpy as np ds = xr.open_dataset("cmip6_climate_data.nc") tmax = ds["tasmax"].sel(lat=28.27, lon=68.43, method="nearest") threshold = np.percentile(tmax.sel(time=slice("1991", "2020")), 95) future_tmax = tmax.sel(time=slice("2030", "2050")) heat_days_mask = future_tmax > threshold 
Этот метод можно разделить на ряд шагов, отражающих традиционный рабочий процесс в области анализа данных. Он начинается с ввода данных, который включает загрузку необработанных файлов NetCDF в вычислительную систему. Затем выполняется извлечение пространственных признаков, в ходе которого определяются соответствующие переменные, такие как максимальная температура, для определенных географических координат. Следующий шаг — вычисление базового уровня, использующее исторические данные для определения порогового значения на основе процентилей, которое обозначает экстремальные ситуации.
В точке, где установлен базовый уровень, система обнаружения аномалий выявляет будущие временные интервалы, когда температура превысит пороговое значение, то есть, по сути, идентифицирует тепловые явления. Наконец, эти выявленные события передаются в модели воздействия, которые преобразуют их в понятные результаты, такие как количество смертей и экономический ущерб.
При надлежащей оптимизации эта последовательность операций позволяет эффективно обрабатывать крупномасштабные наборы климатических данных, преобразуя сложные многомерные данные в структурированные и интерпретируемые результаты.
Ограничения и предположения
Как и любой аналитический алгоритм, этот также зависит от ряда упрощающих предположений, которые следует учитывать при интерпретации результатов. Оценки смертности основаны на предположении об однородной уязвимости населения, что практически не отражает различий в возрастном распределении, социальных условиях или наличии инфраструктуры, такой как системы охлаждения и т. д. Оценка экономического воздействия одновременно описывает очень приблизительную картину ситуации и полностью игнорирует чувствительность различных секторов и стратегии адаптации в определенных регионах. Кроме того, существует внутренняя неопределенность самих климатических прогнозов, обусловленная разнообразием климатических моделей и сценариями выбросов в будущем. Наконец, пространственное разрешение глобальных наборов данных может ослаблять эффект локальных очагов, таких как городские тепловые острова, что может привести к потенциальной недооценке риска в густонаселенной городской среде.
В целом, эти ограничения указывают на то, что результаты работы данного алгоритма не следует воспринимать буквально как точные прогнозы, а скорее как предварительные оценки, которые могут дать представление о направлении развития.
Ключевые выводы
Этот алгоритм иллюстрирует некоторые ключевые аспекты на стыке климатологии и науки о данных. Во-первых, основная трудность в климатических исследованиях заключается не в сложности моделирования, а в огромных усилиях по обработке данных, необходимых для преобразования необработанных многомерных наборов данных в пригодные для использования форматы. Во-вторых, интеграция моделей из нескольких областей — объединение климатических данных с эпидемиологическими и экономическими моделями — часто обеспечивает наибольшую практическую ценность, чем просто улучшение отдельного компонента. Кроме того, прозрачность и интерпретируемость оказываются важными принципами проектирования, поскольку хорошо организованные и легко отслеживаемые рабочие процессы позволяют проводить проверку, повышать доверие и способствовать более широкому внедрению среди ученых и лиц, принимающих решения.
Заключение
Климатические данные обширны, но сложны. Без создания структурированных механизмов их ценность останется скрытой от лиц, принимающих решения.
Используя принципы инженерии данных и интегрируя модели, специфичные для конкретной области, можно преобразовать исходные данные NetCDF в функциональные климатические прогнозы на уровне городов. Этот же подход служит иллюстрацией того, как наука о данных может сыграть важную роль в преодолении разрыва между климатологами и лицами, принимающими решения.
Простую реализацию этого конвейера можно посмотреть здесь для наглядности:
https://openplanet-ai.vercel.app/
Ссылки
- [1] Гаспаррини А., Смертность, связанная с температурой (2017), Lancet Planetary Health
- [2] Берк М., Температура и экономическое производство (2018), Nature
- [3] Стулл Р., Температура влажного термометра (2011), Журнал прикладной метеорологии
- [4] Херсбах Х., Реанализ ERA5 (2020), ECMWF
Аакаш Госвами. Все материалы от Аакаша Госвами.
Источник: towardsdatascience.com





















