
Благодаря новаторскому подходу к классификации мы добавили новую функцию маршрутизации для автомобилей с высокой загрузкой (HOV) и расчетное время прибытия (ETA).
Переход к экологически чистым видам транспорта, таким как электромобили (EV), совместные поездки и общественный транспорт, привел к увеличению времени в пути. В значительной степени это связано с наличием выделенных полос, таких как полосы для совместных поездок, также называемые полосами для транспортных средств с большим количеством пассажиров (HOV), которые предназначены для автомобилей с несколькими пассажирами и предназначены для более эффективного движения транспорта в часы пик. В результате, в часы пик движение по полосам HOV обычно быстрее, чем по обычным полосам. Например, в долине Солт-Лейк в штате Юта средняя скорость на полосах HOV составила 68,18 миль в час по сравнению с 58,60 милями в час на обычных полосах, разница составляет около 16%.
Точные прогнозы расчетного времени прибытия (ETA) и оптимизированные маршруты являются ключом к улучшению качества поездок на работу. Благодаря точным прогнозам ETA путешественники могут принимать более взвешенные решения, экономить время и даже способствовать снижению заторов и выбросов. Учитывая это, Google Maps недавно представил функцию, позволяющую водителям выбирать маршруты, включающие полосы для автомобилей с большим количеством пассажиров (HOV), и видеть расчетное время прибытия по этому маршруту. В этом посте мы расскажем, как мы разработали эту функцию и систему классификации для различения поездок по полосам HOV от поездок без них, что привело к запуску функции расчета ETA для полос HOV в Google Maps.

В Google Maps доступны варианты маршрутов с учетом наличия автомобилей с большим количеством пассажиров (HOV).
Разработка расчетного времени прибытия, специфичного для полос движения с высокой загрузкой.
Для оценки времени в пути по полосам для автомобилей с большим количеством пассажиров (HOV) мы сначала определяем прошлые показатели времени в пути по этим полосам, анализируя агрегированные и анонимизированные данные о дорожном движении. Затем мы используем эти данные для обучения наших моделей прогнозирования времени прибытия (ETA) специально для полос HOV.
Однако идентификация поездок по полосам для автомобилей с большим количеством пассажиров (HOV) — задача непростая. Простые данные, такие как скорость, могут быть схожими как для пользователей HOV, так и для пользователей обычных полос, особенно при небольшом трафике. Тем не менее, модели передвижения по полосам HOV также имеют ряд существенных и полезных ограничений, включая ограничения доступности в зависимости от местоположения, времени суток и исключительных событий.
Для решения этих проблем мы разрабатываем подход к обучению без учителя, выполняя классификацию без начальных меток (зоны с высокой загрузкой для автомобилей с несколькими пассажирами против зон без такой загрузки). Мы выполняем задачу классификации участков поездки, расположенных на отдельных дорожных участках, где имеются зоны с высокой загрузкой для автомобилей с несколькими пассажирами. Затем общая классификация поездки определяется путем объединения этих классификаций на уровне отдельных участков.
Классификация на уровне сегментов
Для каждого отдельного участка мы обрабатываем набор фрагментов поездок из разных маршрутов, которые проходят по этому участку в течение короткого промежутка времени, например, 15 минут. Наша цель — классифицировать эти фрагменты поездок, используя информацию как о самой поездке, так и о других поездках, которые произошли в тот же промежуток времени. Каждая поездка состоит из нескольких наблюдений, или «точек поездки», зарегистрированных во время движения. Эти точки включают такую информацию, как скорость, боковое расстояние от центра дороги и время наблюдения.
Наиболее важной особенностью этой классификации является информация о скорости. Фактически, наша задача классификации становится более ценной, когда время в пути по полосам для автомобилей с большим количеством пассажиров (HOV-полосы) отличается от времени в пути по обычным полосам. В таких сценариях мы часто наблюдаем бимодальное распределение скорости, когда одновременно возникают два различных типа транспортного потока. Например, на рисунке ниже анонимизированные агрегированные данные о скорости, собранные с 16:00 до 16:30 на трассе I5 в Сиэтле, наглядно это демонстрируют: более высокие скорости, вероятно, соответствуют транспортным средствам, использующим HOV-полосы. Мы называем это сценарием А.

Сценарий А: Распределение скорости на участке с полосами для автомобилей с большим количеством пассажиров (HOV) в часы пик, когда скорость движения по полосам HOV значительно выше, чем по обычным полосам.
Анализируя данные о скорости, мы можем различать автомобили, использующие полосы для автомобилей с высокой загрузкой (HOV), и автомобили без таких полос, если время их поездок значительно различается. Однако возможно, что разница во времени поездок заметна, но она не обязательно является существенной. Например, на следующем графике показано распределение скорости на одном и том же участке в часы пик, но когда автомобили HOV движутся немного быстрее. Мы называем это сценарием B.

Сценарий B: Распределение скорости на участке с полосами для автомобилей с большим количеством пассажиров (HOV) в часы пик, когда скорость движения по полосам HOV выше, чем по обычным полосам, но не значительно выше.
Помимо скорости: учет расчетного бокового расстояния.
Хотя скорость является важным сигналом, мы также исследовали другие факторы для улучшения классификации. Расчетное боковое расстояние до центра дороги, хотя и по своей природе является шумным из-за присущей GPS неточности, оказалось полезным в сочетании со скоростью. Фактически, даже при некоторой неточности информация о расстоянии помогает выделить особенности поведения на отдельных полосах движения, особенно при различении от соседних полос.
На двух рисунках ниже показаны два ранее обсуждавшихся распределения скорости. На них представлены анонимизированные данные о дорожном движении в часы пик в районе Сиэтла на пятиполосном участке автомагистрали, где две полосы для автомобилей с большим количеством пассажиров (HOV) расположены слева. Показаны скорость и расчетное относительное расстояние до центра дороги от этого участка, при этом точки данных выделены зеленым и синим цветом, указывающим, находятся ли они в пределах полосы HOV. На первом рисунке представлены данные для сценария А, где на полосах HOV наблюдается значительно более высокая скорость по сравнению с обычными полосами, со средней скоростью 65 миль в час против 25 миль в час.

Сценарий А — Слева: Зарегистрированная скорость в зависимости от бокового расстояния от центра дороги для различных анонимизированных поездок на отдельном участке. Справа: Распределение скоростей в зависимости от того, находились ли данные на полосе для автомобилей с большим количеством пассажиров или нет.
На втором рисунке представлены те же данные, собранные в период, когда разница в скорости была меньше (сценарий B), при этом средняя скорость составляла 67 миль в час против 55 миль в час.

Сценарий B — Слева: Зарегистрированная скорость в зависимости от бокового расстояния от центра дороги для различных анонимизированных поездок на отдельном участке. Справа: Распределение скоростей в зависимости от того, находились ли данные на полосе для автомобилей с большим количеством пассажиров или нет.
Временная кластеризация и мягкие назначения
Как показано на рисунке выше, кластеризация может быть эффективным методом для генерации первоначальных меток для этих наблюдений. Однако наш подход выходит за рамки базовой кластеризации, включая дополнительное измерение: время. При классификации наблюдений за поездкой время других наблюдений играет значительную роль. Хотя для статистической достоверности важно иметь достаточно данных в каждом временном интервале, мы также отдаем приоритет более свежим точкам данных при обработке. Поэтому мы используем методы взвешенной медианы, учитывающие время событий.
Еще один фактор, способствующий нашей классификации, — это переход к методам мягкой кластеризации. Вместо того чтобы однозначно относить каждую точку данных к одному кластеру (HOV или не-HOV), мы вычисляем вероятность принадлежности каждой точки к каждому кластеру. Это особенно полезно для пограничных точек данных. Мягкая кластеризация также дает нам больше гибкости при агрегировании этих классификаций для принятия окончательного решения по всей поездке.
Окончательная агрегация и классификация
Поездка охватывает несколько участков дороги, и мы классифицируем каждую поездку, суммируя результаты классификации по каждому участку. Особое внимание уделяется участкам, которые находятся в пределах полос, пригодных для движения автомобилей с большим количеством пассажиров (HOV). Мы вычисляем долю поездки, которая, вероятно, была проведена на полосах HOV, и используем это как ключевой фактор в окончательной классификации.
Для дальнейшего уточнения результатов мы применяем подход смешанного экспертного мнения (MoE). Эта структура использует несколько классификаторов, каждый с различными настройками параметров для моделей классификации на уровне сегментов. Окончательная классификация поездки затем определяется с помощью механизма голосования по большинству голосов среди этих классификаторов, что приводит к более надежным результатам.
Оценка
Для оценки точности нашего расчета предполагаемого времени прибытия (ETA) мы провели серию экспериментов, сравнивая расчетное время прибытия, полученное с использованием наших новых оценок на основе полос для автомобилей с высокой загрузкой (HOV), с расчетным временем, полученным с помощью нашей устаревшей системы. Мы разделили поездки по участкам дорог различной длины и проанализировали распределение времени в пути для каждого участка.
Для каждого участка мы моделировали бимодальное распределение времени в пути, используя два нормальных распределения — одно для общего движения по полосам, а другое для движения по полосам для автомобилей с большим количеством пассажиров (HOV). На основе этого мы вычисляли z-оценку для каждой поездки, чтобы оценить, насколько точно она соответствует тому или иному распределению. Это позволило нам с уверенностью классифицировать поездки как поездки по полосам HOV или нет, если их z-оценки попадали в пределы высокой степени достоверности. Затем мы оценивали производительность нашего алгоритма по отношению к этим меткам с высокой степенью достоверности.
Результаты
Теперь мы представляем расчетное время прибытия (ETA) для автомобилей с высокой загрузкой полос (HOV). Благодаря запуску этой функции мы повысили общую точность расчета времени прибытия для водителей, использующих эту функцию, на 75%, что делает наши показатели точности для пользователей HOV сопоставимыми с показателями водителей, едущих по маршрутам без полос HOV. Наш окончательный метод классификации показал улучшение точности расчета времени прибытия на 18% по сравнению с первоначальным методом, который сравнивал только скорость движения.
Заключение
Анализируя расположение полос движения с помощью анализа скорости и применяя подход, основанный на взаимодействии экспертов, для классификации поездок, мы разработали мощный метод решения проблемы нехватки размеченных данных о движении автомобилей с высокой загрузкой (HOV). Эта структура предлагает новый способ интерпретации динамических условий движения и решения ключевых проблем моделирования дорожного движения. Помимо движения автомобилей с высокой загрузкой, аналогичные принципы могут быть распространены на другие виды транспорта, демонстрирующие схожие модели использования. Например, в регионах со значительным движением двухколесного транспорта эти концепции могут быть применимы и к мотоциклистам.
Мы считаем, что этот подход обладает большим потенциалом для развития области анализа данных о дорожном движении и имеет практическое значение для улучшения реальных приложений, таких как Google Maps. Повышая точность и эффективность использования полос для автомобилей с большим количеством пассажиров, наша модель может помочь пользователям планировать более эффективные маршруты, сокращать время в пути и способствовать более разумным и экологичным поездкам на работу.
Благодарности
Эти технологические достижения стали возможны благодаря неустанной работе наших сотрудников из Google Maps: Даниэля Деллинга, Амруты Гуланикар, Кэмерона Джонса, Оливера Ланге, Рамеша Намбури, Пуджи Патель, Лоренцо Прелли, Стеллы Стилианиду и Цянь Чжэн. Особая благодарность Коринне Кортес, Сринивасу Голлапуди, Рави Кумару и Эндрю Томкинсу за их поддержку в ходе этого проекта. Мы благодарим Кэмерона Джонса, Сриниваса Голлапуди и Рави Кумара за их ценный вклад в эту статью.
Источник: research.google























