Глобальные данные: передача информации от Земли к цифровым графикам и таблицам.

От NetCDF к аналитическим выводам: практический подход к анализу климатических рисков на городском уровне.

Интеграция прогнозов CMIP6, реанализа ERA5 и моделей воздействия в простой и понятный рабочий процесс.

Делиться

cddb807ed158def9833fe4240991ca66
Концептуальная иллюстрация преобразования необработанных климатических данных в структурированные, готовые к принятию решений аналитические выводы (Изображение предоставлено автором)

В исследованиях климата произошел существенный переход к работе с большими массивами данных. Крупномасштабные модели земной системы (ESM) и продукты реанализа, такие как CMIP6 и ERA5, перестали быть просто хранилищами научных данных и превратились в огромные многомерные пространственно-временные наборы данных петабайтного размера, требующие масштабной обработки данных, прежде чем их можно будет использовать для анализа.

С точки зрения машинного обучения и архитектуры данных, процесс преобразования научных данных о климате в политику напоминает классический конвейер: сбор исходных данных, разработка признаков, детерминированное моделирование и создание конечного продукта. Тем не менее, в отличие от традиционного машинного обучения на табличных данных, вычислительная климатология поднимает такие гораздо более сложные вопросы, как нерегулярные пространственно-временные масштабы, нелинейные пороговые значения, специфичные для каждого климата, и необходимость сохранения физической интерпретируемости.

В данной статье представлен облегченный и практичный конвейер обработки данных, который устраняет разрыв между обработкой исходных климатических данных и прикладным моделированием воздействия, преобразуя наборы данных NetCDF в интерпретируемые данные о рисках на уровне городов.

Проблема: от необработанных тензоров к готовым к принятию решения аналитическим выводам.

Несмотря на беспрецедентный объем глобальных климатических данных высокого разрешения, преобразование их в локальные и практически применимые выводы остается непростой задачей. В большинстве случаев проблема заключается не в отсутствии данных, а в сложности их формата.

Климатические данные обычно сохраняются в формате Network Common Data Form (NetCDF). Эти файлы:

  • Содержат огромные многомерные массивы (тензоры обычно имеют форму «время × широта × долгота × переменные»).
  • Для проведения статистического анализа необходимы как достаточно сильное пространственное маскирование, так и временное агрегирование, а также выравнивание системы координат.
  • По своей природе они не понятны для табличных структур (например, баз данных SQL или DataFrames Pandas), которые обычно используются градостроителями и экономистами.

Подобное нарушение структуры приводит к разрыву в переводе: исходные физические данные есть, но социально-экономические выводы, которые должны быть получены детерминистическим путем, отсутствуют.

Основные источники данных

Одним из аспектов надежного конвейера разработки является его способность интегрировать традиционные базовые показатели с прогнозами на будущее:

  • Реанализ ERA5: предоставляет данные о климате за прошлые периоды (1991-2020 гг.), такие как температура и влажность.
  • Прогнозы CMIP6: Предлагают потенциальные сценарии изменения климата в будущем, основанные на различных траекториях выбросов.

Используя эти источники данных, можно проводить локальное обнаружение аномалий, вместо того чтобы полагаться исключительно на глобальные средние значения.

Базовые показатели для конкретных мест: определение экстремальной жары

Критически важным вопросом в анализе климата является определение «экстремальных» условий. Фиксированный глобальный порог (например, 35°C) недостаточен, поскольку локальная адаптация сильно различается от региона к региону.

Таким образом, мы характеризуем экстремальную жару с помощью порогового значения, основанного на процентилях и полученного из исторических данных:

 import numpy as np import xarray as xr def compute_local_threshold(tmax_series: xr.DataArray, percentile: int = 95) -> float: return np.percentile(tmax_series, percentile) T_threshold = compute_local_threshold(Tmax_historical_baseline)

Такой подход гарантирует, что экстремальные явления определяются относительно местных климатических условий, что делает анализ более контекстно-ориентированным и содержательным.

Разработка термодинамических характеристик: температура влажного термометра

Сама по себе температура недостаточна для точного определения теплового стресса у человека. Влажность, которая влияет на механизм охлаждения организма посредством испарения, также является важным фактором. Температура влажного термометра (ТВТ), представляющая собой комбинацию температуры и влажности, является хорошим индикатором физиологического стресса. Вот формула, которую мы используем, основанная на приближении Стулла (2011), которая проста и быстро вычисляется:

 import numpy as np def compute_wet_bulb_temperature(T: float, RH: float) -> float: wbt = ( T * np.arctan(0.151977 * np.sqrt(RH + 8.313659)) + np.arctan(T + RH) - np.arctan(RH - 1.676331) + 0.00391838 * RH**1.5 * np.arctan(0.023101 * RH) - 4.686035 ) return wbt

Длительное поддержание температуры влажного термометра выше 31–35 °C приближается к пределу выживаемости человека, что делает этот фактор критически важным при моделировании рисков.

Преобразование климатических данных в результаты деятельности человека

Чтобы выйти за рамки физических переменных, мы переводим воздействие климата в последствия для человека, используя упрощенную эпидемиологическую модель.

 def estimate_heat_mortality(population, base_death_rate, exposure_days, AF): return population * base_death_rate * exposure_days * AF

В данном случае смертность моделируется как функция численности населения, базового уровня смертности, продолжительности воздействия и доли риска, обусловленной воздействием.

Несмотря на упрощение, эта формулировка позволяет преобразовать температурные аномалии в понятные показатели воздействия, такие как предполагаемая избыточная смертность.

Моделирование экономического воздействия

Изменение климата также влияет на экономическую производительность. Эмпирические исследования показывают нелинейную зависимость между температурой и объемом экономического производства, при этом производительность снижается при более высоких температурах.
Мы аппроксимируем это с помощью простой полиномиальной функции:

 def compute_economic_loss(temp_anomaly): return 0.0127 * (temp_anomaly - 13)**2

Хотя и в упрощенном виде, это отражает ключевой вывод о том, что экономические потери ускоряются по мере отклонения температуры от оптимальных условий.

Пример из практики: Сравнение климатических условий

Для иллюстрации процесса мы рассмотрим два контрастных города:

  • Джакобабад (Пакистан) : город с экстремально высокой базовой температурой.
  • Якутск (Россия) : город с холодным базовым климатом.
c80584c518ebc94a806b916ae1063286
Локализованные пороговые значения P95, демонстрирующие, как определяется экстремальная жара относительно регионального распределения температур, а не фиксированных глобальных пределов (Изображение предоставлено автором).
Город Население Исходный уровень смертности/год Риск перегрева (%) Предполагаемое количество смертей от жары в год
Джакобабад 1,17 млн. ~8200 0,5% ~41
Якутск 0,36М ~4700 0,1% ~5

Несмотря на использование одного и того же конвейера обработки данных, результаты значительно различаются из-за местных климатических условий. Это подчеркивает важность моделирования с учетом контекста.

Архитектура конвейера обработки данных: от данных к аналитическим выводам.

Весь процесс осуществляется в соответствии со структурированной схемой:

 import xarray as xr import numpy as np ds = xr.open_dataset("cmip6_climate_data.nc") tmax = ds["tasmax"].sel(lat=28.27, lon=68.43, method="nearest") threshold = np.percentile(tmax.sel(time=slice("1991", "2020")), 95) future_tmax = tmax.sel(time=slice("2030", "2050")) heat_days_mask = future_tmax > threshold 
8b3bed0700f5340046816b2ae9de3a2d
Полный цикл работы, от загрузки исходных данных в формате NetCDF до моделирования воздействия (Изображение предоставлено автором)

Этот метод можно разделить на ряд шагов, отражающих традиционный рабочий процесс в области анализа данных. Он начинается с ввода данных, который включает загрузку необработанных файлов NetCDF в вычислительную систему. Затем выполняется извлечение пространственных признаков, в ходе которого определяются соответствующие переменные, такие как максимальная температура, для определенных географических координат. Следующий шаг — вычисление базового уровня, использующее исторические данные для определения порогового значения на основе процентилей, которое обозначает экстремальные ситуации.

В точке, где установлен базовый уровень, система обнаружения аномалий выявляет будущие временные интервалы, когда температура превысит пороговое значение, то есть, по сути, идентифицирует тепловые явления. Наконец, эти выявленные события передаются в модели воздействия, которые преобразуют их в понятные результаты, такие как количество смертей и экономический ущерб.

При надлежащей оптимизации эта последовательность операций позволяет эффективно обрабатывать крупномасштабные наборы климатических данных, преобразуя сложные многомерные данные в структурированные и интерпретируемые результаты.

Ограничения и предположения

Как и любой аналитический алгоритм, этот также зависит от ряда упрощающих предположений, которые следует учитывать при интерпретации результатов. Оценки смертности основаны на предположении об однородной уязвимости населения, что практически не отражает различий в возрастном распределении, социальных условиях или наличии инфраструктуры, такой как системы охлаждения и т. д. Оценка экономического воздействия одновременно описывает очень приблизительную картину ситуации и полностью игнорирует чувствительность различных секторов и стратегии адаптации в определенных регионах. Кроме того, существует внутренняя неопределенность самих климатических прогнозов, обусловленная разнообразием климатических моделей и сценариями выбросов в будущем. Наконец, пространственное разрешение глобальных наборов данных может ослаблять эффект локальных очагов, таких как городские тепловые острова, что может привести к потенциальной недооценке риска в густонаселенной городской среде.

В целом, эти ограничения указывают на то, что результаты работы данного алгоритма не следует воспринимать буквально как точные прогнозы, а скорее как предварительные оценки, которые могут дать представление о направлении развития.

Ключевые выводы

Этот алгоритм иллюстрирует некоторые ключевые аспекты на стыке климатологии и науки о данных. Во-первых, основная трудность в климатических исследованиях заключается не в сложности моделирования, а в огромных усилиях по обработке данных, необходимых для преобразования необработанных многомерных наборов данных в пригодные для использования форматы. Во-вторых, интеграция моделей из нескольких областей — объединение климатических данных с эпидемиологическими и экономическими моделями — часто обеспечивает наибольшую практическую ценность, чем просто улучшение отдельного компонента. Кроме того, прозрачность и интерпретируемость оказываются важными принципами проектирования, поскольку хорошо организованные и легко отслеживаемые рабочие процессы позволяют проводить проверку, повышать доверие и способствовать более широкому внедрению среди ученых и лиц, принимающих решения.

Заключение

Климатические данные обширны, но сложны. Без создания структурированных механизмов их ценность останется скрытой от лиц, принимающих решения.

Используя принципы инженерии данных и интегрируя модели, специфичные для конкретной области, можно преобразовать исходные данные NetCDF в функциональные климатические прогнозы на уровне городов. Этот же подход служит иллюстрацией того, как наука о данных может сыграть важную роль в преодолении разрыва между климатологами и лицами, принимающими решения.

Простую реализацию этого конвейера можно посмотреть здесь для наглядности:
https://openplanet-ai.vercel.app/

Ссылки

  • [1] Гаспаррини А., Смертность, связанная с температурой (2017), Lancet Planetary Health
  • [2] Берк М., Температура и экономическое производство (2018), Nature
  • [3] Стулл Р., Температура влажного термометра (2011), Журнал прикладной метеорологии
  • [4] Херсбах Х., Реанализ ERA5 (2020), ECMWF

Аакаш Госвами. Все материалы от Аакаша Госвами.

Источник: towardsdatascience.com

✅ Найденные теги: NetCDF, Анализ, Аналитика, Городской Уровень, Климатические Риски, новости, От

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Вид Земли из-за горизонта Луны, космическое фото, Земля и Луна в космосе.
Группа людей в лаборатории, одетых в серые халаты, рядом с лабораторным оборудованием.
Футуристический солдат в броне с оружием на экране в высокотехнологичном помещении.
Автомобиль Skoda с камуфляжем на фоне горного озера и снежных вершин.
Электромобиль заряжается на станции, вид сверху. Парковка для зарядки электромобилей.
Сравнительная диаграмма развития человеческого и ИИ, показывающая ошибку инверсии.
Как компания Corewell Health улучшает результаты лечения пациентов с хроническими заболеваниями
Компания Corewell Health видит значительные преимущества от своих инвестиций в дистанционный мониторинг состояния пациентов.
Корова в скафандре и сапогах на поверхности Луны ночью.
Image Not Found
Группа людей в лаборатории, одетых в серые халаты, рядом с лабораторным оборудованием.

Соединение никеля поможет эффективно превратить тяжелую нефть в легкую

Коллектив исследователей © Михаил Варфоломеев / КФУ Ученые нашли способ сделать переработку тяжелой нефти прямо в пласте более эффективной. Эксперимент с применением модельных молекул показал, что можно удалить до 97% серосодержащих соединений и повысить качество сырья с…

Апр 8, 2026
Футуристический солдат в броне с оружием на экране в высокотехнологичном помещении.

Бюджетный монитор Skyworth с функциями для игр и работы

Компания Skyworth вывела на китайский рынок доступный игровой монитор Skyworth G27 SE, который делает ставку на баланс цены и характеристик.  Устройство получило 27-дюймовую IPS-матрицу с разрешением Full HD и частотой обновления 144 Гц, что обеспечивает плавное отображение…

Апр 8, 2026
Автомобиль Skoda с камуфляжем на фоне горного озера и снежных вершин.

Новый флагман Škoda: 7-местный электромобиль Peaq

Электрический внедорожник Škoda Peaq уже называют самым крупным и технологичным автомобилем марки. Предсерийный образец недавно показали на озере озеро Комо, где он прошёл первые тесты, продемонстрировав управляемость, характерную для бренда. По габаритам новинка превосходит даже крупный Kodiaq,…

Апр 8, 2026
Электромобиль заряжается на станции, вид сверху. Парковка для зарядки электромобилей.

Цены на бензин — не единственный фактор, влияющий на продажи подержанных электромобилей.

Вкратце Источник изображения: Джастин Салливан / Getty Images Последние данные о продажах электромобилей представили мрачную картину — по крайней мере, для новых электромобилей. По данным Cox Automotive, продажи новых электромобилей сильно упали в первом квартале, снизившись примерно…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых