Создание карты современного мира: как S2Vec изучает язык наших городов
Мы представляем S2Vec, самообучающуюся структуру, которая преобразует сложные геопространственные данные в универсальные векторные представления для прогнозирования социально-экономических и экологических закономерностей по всему миру.
Быстрые ссылки
- Бумага
- Делиться
Когда мы думаем об искусственном интеллекте и географии, мы часто сосредотачиваемся на навигации, или перемещении из точки А в точку Б. Однако рукотворная среда — сложная сеть дорог, зданий, предприятий и инфраструктуры, определяющая наш мир, — содержит гораздо больше информации, чем просто координаты на карте. Эти особенности рассказывают историю о социально-экономическом состоянии, экологических закономерностях и городском развитии.
До недавнего времени преобразование этих разнообразных геопространственных данных в форматы, понятные моделям машинного обучения (МО), было ручным и трудоемким процессом. Исследователям часто приходилось вручную создавать специфические индикаторы для каждой новой задачи, которую они хотели решить. В Google Research мы разработали новый способ преодоления этого разрыва в рамках инициативы Google Earth AI — нашего коллективного комплекса геопространственных усилий, которые преобразуют планетарную информацию в полезную информацию с помощью базовых моделей и передовых методов логического мышления в области искусственного интеллекта.
В соответствии с концепцией Earth AI, мы недавно представили S2Vec — самообучающуюся структуру, предназначенную для обучения универсальным векторным представлениям (то есть компактным числовым сводкам) застроенной среды. S2Vec позволяет ИИ понимать характер района так же, как это делает человек, распознавая закономерности в распределении автозаправочных станций, парков и жилых домов и используя эти знания для прогнозирования важных показателей, от плотности населения до воздействия на окружающую среду. В наших оценках S2Vec продемонстрировал конкурентоспособные результаты по сравнению с базовыми моделями на основе изображений в задачах социально-экономического прогнозирования, особенно в географической адаптации (экстраполяции), при этом показав явную необходимость улучшения в задачах, связанных с окружающей средой, таких как древесный покров и высота над уровнем моря.
Задача: выйти за рамки отдельных точек на карте.
Работа с геопространственными данными крайне сложна, поскольку они многомодальны и сильно различаются по масштабу. Городской квартал может содержать сотни точек данных (здания, кафе, автобусные остановки), в то время как сельская местность может иметь лишь несколько. Стандартные модели машинного обучения предпочитают структурированные, однородные данные, такие как сетка пикселей на фотографии.
Для решения этой задачи S2Vec использует двухэтапный процесс растеризации окружающего мира:
- Разделение геометрии с помощью S2 : Мы используем библиотеку геометрии S2 для разделения поверхности Земли на иерархию ячеек. Это позволяет нам рассматривать мир с разным разрешением, от целой страны до нескольких квадратных метров, и очень эффективно находить ячейки любого разрешения для любого местоположения. Наша внутренне оптимизированная версия библиотеки S2 позволяет быстро и беспрепятственно переключаться между разрешениями ячеек, покрывающих заданное местоположение.
- Растеризация объектов : Вместо того чтобы рассматривать здания или дороги как список координат, мы подсчитываем типы объектов в каждой ячейке S2 и располагаем их в многослойное изображение. Если в ячейке есть три кофейни и один парк, они становятся «цветами» на нашем геопространственном изображении.
Эта трансформация позволяет нам обрабатывать географические данные о застроенной среде как цифровую фотографию, которую может «видеть» искусственный интеллект. В свою очередь, такая растеризация открывает доступ к обширному и хорошо развитому набору методов компьютерного зрения, которые в основном решили проблему понимания естественных изображений.
S2Vec растрирует изображения для получения векторных представлений окружающей застройки.
Маскированное автокодирование: обучение без меток
После преобразования данных о застроенной среде в растровые изображения объектов, S2Vec анализирует их с помощью маскированного автокодирования (MAE) — надежного метода самообучения. В то время как традиционное машинное обучение опирается на метки, созданные вручную (например, ручная разметка регионов по уровню дохода или качеству воздуха), самообучение устраняет это узкое место. Поскольку разметка всей планеты — невыполнимая задача, MAE позволяет нам получать глобальные данные без необходимости создания меток вручную.
Процесс MAE систематически показывает модели «фрагмент» застроенной среды, скрывая (маскируя) при этом определенные ее части. Затем модель восстанавливает недостающие элементы, основываясь исключительно на окружающем контексте:
- Контекстная логика : если модель видит скопление многоэтажных жилых зданий и станцию метро, она учится правильно предсказывать, что в замаскированной зоне, вероятно, находится продуктовый магазин.
- Масштаб : Благодаря миллионам повторений по всему миру, модель изучает глубинные, лежащие в основе взаимосвязи между различными городскими особенностями.
В результате получается универсальное векторное представление: уникальная математическая запись, отражающая характеристики местоположения. Эти последовательности чисел представляют собой особенности местоположения, создавая основу, которую затем можно адаптировать для решения различных задач.
S2Vec отражает «характер» городской территории, разделяя регионы на сетки, в которых каждая ячейка выступает в качестве точки данных для характеристик «застроенной среды», таких как здания и дороги.
Далее, MAE учится «заполнять пробелы» в скрытых участках карты, выявляя глубинные закономерности в застроенной среде. Это создает мощное математическое «встраивание» для любого местоположения, позволяющее прогнозировать социально-экономические показатели, такие как цены на жилье и плотность населения, в глобальном масштабе и с высокой точностью.
Автоматический кодировщик S2Vec помечает регионы, что, по сути, позволяет более детально классифицировать и анализировать их на основе таких факторов, как социально-экономические данные и плотность населения.
Даже не зная, что такое «финансовый район» или «пригородная жилая зона», модель может сгруппировать их вместе, основываясь исключительно на пространственном соотношении их характеристик.
Оценка
Мы сравнили геопространственную производительность S2Vec с несколькими подходами к встраиванию геопространственных данных и изображений, включая: SATCLIP, GEOCLIP, RS-MaMMUT, Hex2vec и GeoVeX. Модели оценивались на нескольких эталонных наборах данных для геопространственной регрессии, в частности, для прогнозирования социально-экономических показателей, таких как плотность населения и медианный доход в масштабах США, а также экологических факторов, включая выбросы углерода, лесной покров и высоту над уровнем моря.
- Функция потерь : Модели обучались и настраивались с использованием функции потерь в виде среднеквадратичной ошибки (MSE).
- Типы задач : Производительность измерялась в двух условиях: случайное разделение на обучающую и тестовую выборки (интерполяция) и географическая адаптация без предварительного обучения (экстраполяция).
Социально-экономические преимущества
Как правило, модель S2Vec оказывалась лучшей отдельной моделью для задач географической адаптации без предварительного обучения, таких как прогнозирование среднего дохода по США или плотности населения в неизвестных регионах.
Мультимодальное слияние
Сочетание S2Vec с эмбеддингами на основе изображений (мультимодальное слияние) в целом показало лучшие результаты, чем использование любой отдельной модальности.
Экологическая слабость
Хотя S2Vec показал конкурентоспособные результаты в прогнозировании таких экологических факторов, как выбросы углерода, результаты продемонстрировали, что одних данных о «застроенной среде» недостаточно. Для решения этих задач S2Vec показал наилучшие результаты в сочетании с встраиванием спутниковых снимков, которые позволяют учитывать транспортные, растительные и рельефные особенности, которые могут быть упущены при подсчете зданий.
Коэффициент детерминации R² измеряет , насколько хорошо модель объясняет вариативность набора данных (диапазон значений от 0 до 1, чем выше значение, тем лучше). Примечательно, что S2Vec сам по себе показал такие же хорошие результаты, как и стандартный для отрасли RS-MaMMUT, и даже лучше, чем GEOCLIP. Как и ожидалось, S2Vec в сочетании с RS-MaMMUT показал наилучшие результаты.
Заключение
S2Vec представляет собой значительный шаг на пути к созданию фундаментального интеллекта для географии. Создавая масштабируемый, самообучающийся способ представления застроенной среды, мы отходим от узкоспециализированных, созданных вручную моделей и переходим к более общей форме геопространственного ИИ.
Последствия такой работы весьма широки. Градостроители могли бы использовать полученные данные, а также другие подобные примеры, для лучшего понимания того, как изменения инфраструктуры влияют на состояние окружающей среды в районах, а исследователи в области экологии могли бы более точно моделировать углеродный след быстрорастущих городов.
Обучение ИИ «чтению» языка наших улиц и зданий позволяет получить более глубокое, основанное на данных понимание мира, который мы создали. Это соответствует нашей более широкой миссии в области искусственного интеллекта для Земли, направленной на преобразование планетарной информации в практические рекомендации — цель, поддерживаемая нашей существующей экосистемой базовых моделей, базовой моделью динамики населения (PDFM) и моделью RS-MaMMUT VLM от Remote Sensing Foundations. Вместе эти инструменты обеспечивают масштаб и точность, необходимые для картирования и управления нашим воздействием на планету.
Благодарности
Мы хотели бы поблагодарить других соавторов статьи: Ивила Цогсурена, Чандракумари Суварну, Элада Ахарони, Абдула Рахмана Крейди, Чун-та Лу и Неху Арору. Мы также хотели бы поблагодарить Пранджала Авасти за ценную информацию.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.