Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Представляем Groundsource: превращаем новостные сообщения в данные с помощью Gemini.

Сегодня мы представляем Groundsource — новую масштабируемую методологию, которая использует Gemini для преобразования неструктурированных глобальных новостей в полезные исторические данные. Наш первый общедоступный набор данных Groundsource по внезапным городским наводнениям содержит 2,6 миллиона записей, что открывает путь к более точным и спасающим жизни прогнозам.

Быстрые ссылки

Стихийные бедствия представляют собой постоянную угрозу для населения и экономики планеты. Ежегодно они затрагивают миллионы людей и причиняют прямой ущерб на миллиарды долларов. Для развития климатических исследований и, в конечном итоге, для обеспечения населения адекватными предупреждениями о стихийных бедствиях, чтобы оно могло оставаться в безопасности, крайне важны надежные исторические данные. Исторические данные позволяют ученым по всему миру лучше смягчать последствия опасностей с помощью гидрологического моделирования и подтверждать прогнозы на основе эмпирических данных. Исторические записи также служат основой для практических применений, от городского планирования до страхования и реагирования на чрезвычайные ситуации.

Именно поэтому сегодня мы представляем Groundsource — масштабируемую платформу для извлечения проверенных данных из неструктурированной информации, позволяющую с беспрецедентной точностью отображать исторические последствия стихийных бедствий. Впервые мы использовали эту методологию для создания уникального глобального набора данных о внезапных наводнениях, включающего 2,6 миллиона исторических случаев наводнений в более чем 150 странах. Мы делаем этот набор данных о внезапных наводнениях общедоступным, чтобы предоставить надежный источник высококачественных данных, которые могут помочь в моделировании и прогнозировании внезапных наводнений в городских районах. Та же методология потенциально может быть применена для создания исторических наборов данных о других опасностях, чтобы ускорить глобальные усилия по повышению устойчивости к кризисам.

Проблема: глобальный дефицит данных.

В то время как некоторые стихийные бедствия, такие как сейсмические события, отслеживаются с помощью единых глобальных сетей датчиков, для гидрометеорологических опасностей, таких как наводнения, отсутствует стандартизированная инфраструктура наблюдения. Точное прогнозирование внезапных наводнений долгое время серьезно затруднялось отсутствием высококачественных глобальных исторических данных для обучения и проверки моделей. Эта «информационная пустыня» представляет собой серьезную проблему.

Существующие архивы, такие как спутниковая база данных Global Flood Database (GFD) и Дартмутская обсерватория по изучению наводнений (DFO), предоставляют ценные данные о масштабах затопления, но сталкиваются с физическими ограничениями, такими как помехи от облаков, время повторного облета спутников и тенденция фиксировать только крупные, продолжительные катастрофы. Глобальная система оповещения и координации действий в случае стихийных бедствий (GDACS) — совместная инициатива Организации Объединенных Наций и Европейской комиссии по мониторингу гуманитарных последствий — предоставляет важные данные, содержащие около 10 000 записей, но в основном ориентирована на события с высокими масштабами воздействия.

Хотя 10 000 записей могут показаться значительным количеством, это лишь капля в море по сравнению с данными, необходимыми для обучения и проверки ИИ в глобальном масштабе. Дефицит данных особенно проблематичен для локальных или быстро распространяющихся катастроф, таких как внезапные наводнения, поскольку эти события часто не регистрируются в традиционных базах данных об опасностях, и создание прогностических моделей, которые надежно функционируют в глобальном масштабе, практически невозможно.

Groundsource: Превращение новостных сообщений в данные с помощью Gemini

Для решения проблемы глобального дефицита данных Groundsource собирает подробную информацию о наводнениях, анализируя доступные новостные сообщения, и преобразует общедоступную информацию в структурированный локализованный архив событий, охватывающий более 150 стран и включающий период с 2000 года по настоящее время. Ключевое новшество Groundsource заключается в его способности использовать передовые технологии искусственного интеллекта для извлечения полезной информации из глобальных новостных СМИ.

Groundsource1_Graph

Этот график иллюстрирует экспоненциальный рост оцифрованных новостей и соответствующее увеличение числа наводнений, зафиксированных в системе Groundsource, демонстрируя значительную плотность данных в последние годы (2020–2025).

Существует огромное количество неструктурированных данных об исторических событиях — новостные статьи, правительственные отчеты и местные сводки, — но извлечение этой информации вручную в больших масштабах невозможно. Наша методология анализирует новостные сообщения, где основной темой являются наводнения. Затем мы используем пользовательский агент Google Read Aloud для выделения основного текста на 80 языках, который стандартизируется до английского языка с помощью API Cloud Translation.

Наиболее важный этап процесса извлечения данных выполняется с использованием модели большого языка Gemini (LLM). Мы разработали сложную систему подсказок, которая направляет Gemini через строгий процесс аналитической проверки:

  • Классификация: Модель различает сообщения о фактических, текущих или прошлых наводнениях и статьи, в которых просто обсуждаются будущие предупреждения, совещания по вопросам политики или общее моделирование рисков.
  • Временная логика: Близнецы привязывают относительные ссылки (например, «прошлый вторник») к дате публикации статьи, чтобы определить точное время события.
  • Пространственная точность: система определяет точные местоположения (районы и улицы) и отображает их на стандартизированных пространственных полигонах с помощью платформы Google Maps.

Техническая проверка Groundsource подтверждает его надежность для исследований, имеющих большое значение. В ходе ручной проверки мы обнаружили, что 60% извлеченных событий были точными как по местоположению, так и по времени. Что особенно важно, 82% были достаточно точными, чтобы быть практически полезными для анализа в реальных условиях — например, для определения правильного административного района или точного определения события в течение одного дня после его пика.

Объём данных, предоставляемых Groundsource, представляет собой масштабное расширение существующих архивов. Преобразовав неструктурированные медиафайлы в данные, мы сгенерировали 2,6 миллиона событий — значительное увеличение по сравнению с записями, содержащимися в традиционных системах мониторинга. Кроме того, пространственно-временное сопоставление показывает, что Groundsource зафиксировал от 85% до 100% сильных наводнений, зарегистрированных GDACS в период с 2020 по 2026 год, что демонстрирует его эффективность в выявлении как масштабных стихийных бедствий, так и более мелких, локализованных событий.

Groundsource2_Map

Глобальная карта, показывающая плотность наводнений в районе Граундсорс. Красные точки обозначают наводнения, зафиксированные в районе GDACS.

Результат: Обеспечение более точного прогнозирования стихийных бедствий.

Благодаря использованию этих обширных структурированных данных мы получили возможность предоставлять прогнозы внезапных городских наводнений практически по всему миру за 24 часа до их начала. Сейчас мы внедряем эти прогнозы в Google Flood Hub, значительно расширяя охват наводнений для Google.

Эта работа пополняет наше семейство геопространственных моделей и наборов данных Google Earth AI, демонстрируя научное лидерство в области устойчивости к кризисам, показывая, что модели с линейными моделями могут систематически преобразовывать «неструктурированную память» мира — новости — в надежную научную основу. Более того, эта методология потенциально может быть применена для устранения пробелов в данных по другим стихийным бедствиям, для которых отсутствуют точные исторические записи, таким как засухи, оползни и лавины.

Преобразуя мировые новости в практические данные, мы не просто документируем прошлое, мы строим более устойчивое будущее. В настоящее время мы совершенствуем нашу модель, работаем над расширением охвата на сельские районы и интегрируем новые источники данных. В дальнейшем мы будем применять этот подход к другим видам опасностей, где отсутствие достоверных данных традиционно делало кризисы непредсказуемыми, стремясь к будущему, в котором ни одно сообщество не будет застигнуто врасплох стихийным бедствием.

Благодарности

В разработке этого проекта принимало участие множество людей. Особую благодарность мы хотели бы выразить следующим лицам: Амитай Сичерман, Авинатан Хассидим, Дебора Коэн, Фредерик Крацерт, Гила Лойке, Грей Ниринг, Идо Земах, Джульет Ротенберг, Морал Бутбул, Олег Злыденко, Орен Гилон, Реувен Саяг, Ротем Майо, Шмуэль Фронман, Йонатан Накар и Йосси Матиас.

Источник: research.google

✅ Найденные теги: Groundsource, новости, Новостные, Превращаем, Представляем, Сообщения

Добавить комментарий

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле Архив рубрики ~Лента новостей~: Рассматриваем первую фотографию контактной площадки процессоров Intel Nova Lake Архив рубрики ~Лента новостей~: 5 основных концепций Python, которые обязательно должны знать инженеры в области искусственного интеллекта. Архив рубрики ~Лента новостей~: Uber, Wayve и Waymo готовятся к противостоянию роботакси в Лондоне.