Глобальные данные: передача информации от Земли к цифровым графикам и таблицам.

От NetCDF к аналитическим выводам: практический подход к анализу климатических рисков на городском уровне.

Интеграция прогнозов CMIP6, реанализа ERA5 и моделей воздействия в простой и понятный рабочий процесс.

Делиться

cddb807ed158def9833fe4240991ca66
Концептуальная иллюстрация преобразования необработанных климатических данных в структурированные, готовые к принятию решений аналитические выводы (Изображение предоставлено автором)

В исследованиях климата произошел существенный переход к работе с большими массивами данных. Крупномасштабные модели земной системы (ESM) и продукты реанализа, такие как CMIP6 и ERA5, перестали быть просто хранилищами научных данных и превратились в огромные многомерные пространственно-временные наборы данных петабайтного размера, требующие масштабной обработки данных, прежде чем их можно будет использовать для анализа.

С точки зрения машинного обучения и архитектуры данных, процесс преобразования научных данных о климате в политику напоминает классический конвейер: сбор исходных данных, разработка признаков, детерминированное моделирование и создание конечного продукта. Тем не менее, в отличие от традиционного машинного обучения на табличных данных, вычислительная климатология поднимает такие гораздо более сложные вопросы, как нерегулярные пространственно-временные масштабы, нелинейные пороговые значения, специфичные для каждого климата, и необходимость сохранения физической интерпретируемости.

В данной статье представлен облегченный и практичный конвейер обработки данных, который устраняет разрыв между обработкой исходных климатических данных и прикладным моделированием воздействия, преобразуя наборы данных NetCDF в интерпретируемые данные о рисках на уровне городов.

Проблема: от необработанных тензоров к готовым к принятию решения аналитическим выводам.

Несмотря на беспрецедентный объем глобальных климатических данных высокого разрешения, преобразование их в локальные и практически применимые выводы остается непростой задачей. В большинстве случаев проблема заключается не в отсутствии данных, а в сложности их формата.

Климатические данные обычно сохраняются в формате Network Common Data Form (NetCDF). Эти файлы:

  • Содержат огромные многомерные массивы (тензоры обычно имеют форму «время × широта × долгота × переменные»).
  • Для проведения статистического анализа необходимы как достаточно сильное пространственное маскирование, так и временное агрегирование, а также выравнивание системы координат.
  • По своей природе они не понятны для табличных структур (например, баз данных SQL или DataFrames Pandas), которые обычно используются градостроителями и экономистами.

Подобное нарушение структуры приводит к разрыву в переводе: исходные физические данные есть, но социально-экономические выводы, которые должны быть получены детерминистическим путем, отсутствуют.

Основные источники данных

Одним из аспектов надежного конвейера разработки является его способность интегрировать традиционные базовые показатели с прогнозами на будущее:

  • Реанализ ERA5: предоставляет данные о климате за прошлые периоды (1991-2020 гг.), такие как температура и влажность.
  • Прогнозы CMIP6: Предлагают потенциальные сценарии изменения климата в будущем, основанные на различных траекториях выбросов.

Используя эти источники данных, можно проводить локальное обнаружение аномалий, вместо того чтобы полагаться исключительно на глобальные средние значения.

Базовые показатели для конкретных мест: определение экстремальной жары

Критически важным вопросом в анализе климата является определение «экстремальных» условий. Фиксированный глобальный порог (например, 35°C) недостаточен, поскольку локальная адаптация сильно различается от региона к региону.

Таким образом, мы характеризуем экстремальную жару с помощью порогового значения, основанного на процентилях и полученного из исторических данных:

 import numpy as np import xarray as xr def compute_local_threshold(tmax_series: xr.DataArray, percentile: int = 95) -> float: return np.percentile(tmax_series, percentile) T_threshold = compute_local_threshold(Tmax_historical_baseline)

Такой подход гарантирует, что экстремальные явления определяются относительно местных климатических условий, что делает анализ более контекстно-ориентированным и содержательным.

Разработка термодинамических характеристик: температура влажного термометра

Сама по себе температура недостаточна для точного определения теплового стресса у человека. Влажность, которая влияет на механизм охлаждения организма посредством испарения, также является важным фактором. Температура влажного термометра (ТВТ), представляющая собой комбинацию температуры и влажности, является хорошим индикатором физиологического стресса. Вот формула, которую мы используем, основанная на приближении Стулла (2011), которая проста и быстро вычисляется:

 import numpy as np def compute_wet_bulb_temperature(T: float, RH: float) -> float: wbt = ( T * np.arctan(0.151977 * np.sqrt(RH + 8.313659)) + np.arctan(T + RH) - np.arctan(RH - 1.676331) + 0.00391838 * RH**1.5 * np.arctan(0.023101 * RH) - 4.686035 ) return wbt

Длительное поддержание температуры влажного термометра выше 31–35 °C приближается к пределу выживаемости человека, что делает этот фактор критически важным при моделировании рисков.

Преобразование климатических данных в результаты деятельности человека

Чтобы выйти за рамки физических переменных, мы переводим воздействие климата в последствия для человека, используя упрощенную эпидемиологическую модель.

 def estimate_heat_mortality(population, base_death_rate, exposure_days, AF): return population * base_death_rate * exposure_days * AF

В данном случае смертность моделируется как функция численности населения, базового уровня смертности, продолжительности воздействия и доли риска, обусловленной воздействием.

Несмотря на упрощение, эта формулировка позволяет преобразовать температурные аномалии в понятные показатели воздействия, такие как предполагаемая избыточная смертность.

Моделирование экономического воздействия

Изменение климата также влияет на экономическую производительность. Эмпирические исследования показывают нелинейную зависимость между температурой и объемом экономического производства, при этом производительность снижается при более высоких температурах.
Мы аппроксимируем это с помощью простой полиномиальной функции:

 def compute_economic_loss(temp_anomaly): return 0.0127 * (temp_anomaly - 13)**2

Хотя и в упрощенном виде, это отражает ключевой вывод о том, что экономические потери ускоряются по мере отклонения температуры от оптимальных условий.

Пример из практики: Сравнение климатических условий

Для иллюстрации процесса мы рассмотрим два контрастных города:

  • Джакобабад (Пакистан) : город с экстремально высокой базовой температурой.
  • Якутск (Россия) : город с холодным базовым климатом.
c80584c518ebc94a806b916ae1063286
Локализованные пороговые значения P95, демонстрирующие, как определяется экстремальная жара относительно регионального распределения температур, а не фиксированных глобальных пределов (Изображение предоставлено автором).
Город Население Исходный уровень смертности/год Риск перегрева (%) Предполагаемое количество смертей от жары в год
Джакобабад 1,17 млн. ~8200 0,5% ~41
Якутск 0,36М ~4700 0,1% ~5

Несмотря на использование одного и того же конвейера обработки данных, результаты значительно различаются из-за местных климатических условий. Это подчеркивает важность моделирования с учетом контекста.

Архитектура конвейера обработки данных: от данных к аналитическим выводам.

Весь процесс осуществляется в соответствии со структурированной схемой:

 import xarray as xr import numpy as np ds = xr.open_dataset("cmip6_climate_data.nc") tmax = ds["tasmax"].sel(lat=28.27, lon=68.43, method="nearest") threshold = np.percentile(tmax.sel(time=slice("1991", "2020")), 95) future_tmax = tmax.sel(time=slice("2030", "2050")) heat_days_mask = future_tmax > threshold 
8b3bed0700f5340046816b2ae9de3a2d
Полный цикл работы, от загрузки исходных данных в формате NetCDF до моделирования воздействия (Изображение предоставлено автором)

Этот метод можно разделить на ряд шагов, отражающих традиционный рабочий процесс в области анализа данных. Он начинается с ввода данных, который включает загрузку необработанных файлов NetCDF в вычислительную систему. Затем выполняется извлечение пространственных признаков, в ходе которого определяются соответствующие переменные, такие как максимальная температура, для определенных географических координат. Следующий шаг — вычисление базового уровня, использующее исторические данные для определения порогового значения на основе процентилей, которое обозначает экстремальные ситуации.

В точке, где установлен базовый уровень, система обнаружения аномалий выявляет будущие временные интервалы, когда температура превысит пороговое значение, то есть, по сути, идентифицирует тепловые явления. Наконец, эти выявленные события передаются в модели воздействия, которые преобразуют их в понятные результаты, такие как количество смертей и экономический ущерб.

При надлежащей оптимизации эта последовательность операций позволяет эффективно обрабатывать крупномасштабные наборы климатических данных, преобразуя сложные многомерные данные в структурированные и интерпретируемые результаты.

Ограничения и предположения

Как и любой аналитический алгоритм, этот также зависит от ряда упрощающих предположений, которые следует учитывать при интерпретации результатов. Оценки смертности основаны на предположении об однородной уязвимости населения, что практически не отражает различий в возрастном распределении, социальных условиях или наличии инфраструктуры, такой как системы охлаждения и т. д. Оценка экономического воздействия одновременно описывает очень приблизительную картину ситуации и полностью игнорирует чувствительность различных секторов и стратегии адаптации в определенных регионах. Кроме того, существует внутренняя неопределенность самих климатических прогнозов, обусловленная разнообразием климатических моделей и сценариями выбросов в будущем. Наконец, пространственное разрешение глобальных наборов данных может ослаблять эффект локальных очагов, таких как городские тепловые острова, что может привести к потенциальной недооценке риска в густонаселенной городской среде.

В целом, эти ограничения указывают на то, что результаты работы данного алгоритма не следует воспринимать буквально как точные прогнозы, а скорее как предварительные оценки, которые могут дать представление о направлении развития.

Ключевые выводы

Этот алгоритм иллюстрирует некоторые ключевые аспекты на стыке климатологии и науки о данных. Во-первых, основная трудность в климатических исследованиях заключается не в сложности моделирования, а в огромных усилиях по обработке данных, необходимых для преобразования необработанных многомерных наборов данных в пригодные для использования форматы. Во-вторых, интеграция моделей из нескольких областей — объединение климатических данных с эпидемиологическими и экономическими моделями — часто обеспечивает наибольшую практическую ценность, чем просто улучшение отдельного компонента. Кроме того, прозрачность и интерпретируемость оказываются важными принципами проектирования, поскольку хорошо организованные и легко отслеживаемые рабочие процессы позволяют проводить проверку, повышать доверие и способствовать более широкому внедрению среди ученых и лиц, принимающих решения.

Заключение

Климатические данные обширны, но сложны. Без создания структурированных механизмов их ценность останется скрытой от лиц, принимающих решения.

Используя принципы инженерии данных и интегрируя модели, специфичные для конкретной области, можно преобразовать исходные данные NetCDF в функциональные климатические прогнозы на уровне городов. Этот же подход служит иллюстрацией того, как наука о данных может сыграть важную роль в преодолении разрыва между климатологами и лицами, принимающими решения.

Простую реализацию этого конвейера можно посмотреть здесь для наглядности:
https://openplanet-ai.vercel.app/

Ссылки

  • [1] Гаспаррини А., Смертность, связанная с температурой (2017), Lancet Planetary Health
  • [2] Берк М., Температура и экономическое производство (2018), Nature
  • [3] Стулл Р., Температура влажного термометра (2011), Журнал прикладной метеорологии
  • [4] Херсбах Х., Реанализ ERA5 (2020), ECMWF

Аакаш Госвами. Все материалы от Аакаша Госвами.

Источник: towardsdatascience.com

✅ Найденные теги: NetCDF, Анализ, Аналитика, Городской Уровень, Климатические Риски, новости, От

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Мужчина в очках и с короткой стрижкой сидит рядом с окном и наслаждается солнечным светом.
Карта памяти SanDisk Extreme PRO 2TB на столе перед черным кейсом.
Космонавт работает на борту космической станции, окружённый оборудованием и проводами.
Древний океан с причудливыми существами эдиакарского периода на дне.
Капли дождя падают на землю, образуя брызги на мокрой почве.
Капли дождя падают на землю, создавая брызги на мокрой почве.
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.
Робот-гуманоид Tesla с черной головой и белым туловищем на фоне.
Два персонажа сражаются световыми мечами на темном фоне сцены из фильма.
Image Not Found
Мужчина в очках и с короткой стрижкой сидит рядом с окном и наслаждается солнечным светом.

Как сохранить молодость и увеличить продолжительность жизни?!

Вопрос сохранения молодости и увеличения продолжительности жизни — это, наверное, одна из главных целей современной науки и философии. Сейчас мы подходим к этому не с точки зрения магии, а с точки зрения биохакинга, доказательной медицины и понимания…

Апр 9, 2026
Карта памяти SanDisk Extreme PRO 2TB на столе перед черным кейсом.

Карта памяти SanDisk Extreme Pro UHS-II на 2 Тбайта оценена в $2000

SanDisk незаметно выпустила более ёмкостную версию своей карты памяти Extreme Pro UHS-II, но привлекла она внимание не возможностями, которые мы всё же затронем, а ценником, который выглядит крайне неприятно. Согласно страничке на Amazon, новинка имеет интерфейс SDXC…

Апр 9, 2026
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.

Сегодня астронавты миссии «Артемида-2» установят новый рекорд расстояния от Земли.

Во время полета космического корабля «Орион» вокруг Луны экипаж «Артемиды II» побьет рекорд, установленный «Аполлоном-13» в 1970 году. Эндрю Лишевски, старший репортер отдела новостей. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и…

Апр 9, 2026
Археологическая находка: каменная гробница и скелет в древнем сооружении.

Исследование древнего индивида из Переславля-Залесского указало на его генетически смешанное происхождение

саркофаг V и погребение: А – вид с востока; Б – саркофаг V после снятия погребения и поздней плиты, вид сверху. © ИОГен РАН Археогенетическое исследование погребения из саркофага XIV-XV века в Спасо-Преображенском соборе в Переславле-Залесском показало,…

Апр 9, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых