Обучение ИИ чтению карты

28.05.2026 ideipro.ru

Мы предлагаем систему генерации синтетических данных для обучения систем искусственного интеллекта визуальному следованию по любому маршруту на любой карте, а в конечном итоге — обучению языковых моделей навигации в нашем мире.

Быстрые ссылки

MapTrace
Набор данных HuggingFace (2 миллиона пар «вопрос-ответ»)
Делиться
- Скопировать ссылку ×

Взгляните на карту торгового центра или тематического парка. За считанные секунды ваш мозг обрабатывает визуальную информацию, определяет ваше местоположение и прокладывает оптимальный путь к месту назначения. Вы инстинктивно понимаете, какие линии — это стены, а какие — пешеходные дорожки. Этот фундаментальный навык — тонкое пространственное мышление — становится для вас чем-то само собой разумеющимся.

Несмотря на невероятные достижения, мультимодальные большие языковые модели (MLLM) часто испытывают трудности с этой конкретной задачей. Хотя MLLM могут распознать изображение зоопарка и перечислить животных, которых можно там найти, им может быть сложно проследить правильный путь от входа до террариума. Они могут провести линию прямо через вольер или сувенирный магазин, не учитывая основные ограничения окружающей среды. Это выявляет критический пробел: современные модели отлично распознают то, что изображено на картинке, но терпят неудачу, когда им нужно понять геометрические и топологические связи между объектами.

Для решения этой задачи в работе «MapTrace: масштабируемая генерация данных для трассировки маршрутов на картах» мы представляем новую задачу, набор данных и конвейер генерации синтетических данных, предназначенные для обучения моделей машинного обучения (MLLM) фундаментальному навыку трассировки путей на картах. Наша работа показывает, что эта сложная пространственная способность, в значительной степени отсутствующая в предварительно обученных моделях, может быть явно обучена с помощью целевых, синтетически сгенерированных данных. Мы также публикуем в открытом доступе 2 миллиона пар вопросов и ответов, сгенерированных с помощью предложенного конвейера с использованием Gemini 2.5 Pro и Imagen-4 Models, чтобы побудить исследовательское сообщество к дальнейшему изучению этой области.

При наличии начальной и конечной точек на карте модель выдает корректный путь, соответствующий ограничениям карты. Мы заметили, что сгенерированные изображения, как правило, некорректно отображают текст, однако в данной работе мы в основном сосредоточились на качестве путей. Мы считаем, что с улучшением моделей генерации изображений эти артефакты можно будет легко устранить в будущих исследованиях.

Проблема: Недостаточное понимание физического мира.

Почему для моделей ИИ так сложно проложить маршрут на карте? Всё сводится к данным. Многоуровневые модели обучения (MLLM) учатся на огромных массивах данных, содержащих изображения и текст. Они учатся ассоциировать слово «маршрут» с изображениями тротуаров и тропинок. Однако они редко сталкиваются с данными, которые явно обучают их правилам навигации — тому, что пути взаимосвязаны, что нельзя пройти сквозь стены и что маршрут представляет собой упорядоченную последовательность соединенных точек.

Самый прямой способ научить этому — собрать огромный массив данных карт с миллионами маршрутов, проложенных вручную. Но аннотирование отдельного маршрута с точностью до пикселя — это кропотливый процесс, и масштабировать его до уровня, необходимого для обучения большой модели, практически невозможно. Кроме того, многие из лучших примеров сложных карт — например, карты торговых центров, музеев и тематических парков — являются коммерческой тайной и их трудно собрать для исследований.

Этот дефицит данных тормозит прогресс. Без достаточного количества обучающих примеров моделям не хватает «пространственной грамматики» для правильной интерпретации карты. Они видят набор пикселей, а не структурированное, удобное для навигации пространство.

Решение: масштабируемый конвейер для обработки синтетических данных.

Для решения этой проблемы нехватки данных мы разработали полностью автоматизированный масштабируемый конвейер, использующий генеративные возможности моделей Gemini для создания разнообразных высококачественных карт. Этот процесс позволяет осуществлять точный контроль над разнообразием и сложностью данных, генерируя аннотированные пути, которые соответствуют заданным маршрутам и избегают непроходимых регионов без необходимости сбора крупномасштабных карт реального мира.

Масштабируемый конвейер для обработки данных трассировки маршрутов на картах.

Конвейер обработки данных работает в четыре автоматизированных и масштабируемых этапа, используя модели искусственного интеллекта как в качестве создателей, так и в качестве критиков для обеспечения качества и создания аннотаций на уровне пикселей.

1. Создание разнообразных карт

Сначала мы используем большую языковую модель (LLM) для генерации подробных описательных подсказок для различных типов карт. LLM генерирует всё, от «карты зоопарка с взаимосвязанными вольерами» до «торгового центра с центральным фуд-кортом» или «фантастического тематического парка с извилистыми дорожками, проходящими через различные тематические зоны». Затем эти текстовые подсказки передаются в модель преобразования текста в изображение, которая преобразует их в сложные картографические изображения.

2. Определение проходимых путей с помощью «критика масок» на основе ИИ.

Получив изображение карты, нам необходимо определить все «проходимые» зоны. Наша система делает это, группируя пиксели по цвету для создания масок-кандидатов маршрутов — по сути, черно-белой карты всех пешеходных дорожек.

Однако не каждая затененная область является допустимым путем. Поэтому мы используем другой алгоритм MLLM в качестве «критика масок», который проверяет каждую маску-кандидат и оценивает, представляет ли она реалистичную, связанную сеть путей, анализируя как изображение карты, так и саму маску-кандидат. Если алгоритм MLLM определяет маску-кандидат как содержащую в основном допустимые для прохождения области (например, мощеные тротуары, обозначенные пешеходные переходы, пешеходные дорожки), то он помечает ее как высококачественную. Затем только эти высококачественные маски передаются на следующий этап.

3. Построение навигационного графа

Получив чистую маску всех проходимых областей, мы преобразуем это двухмерное изображение в более структурированный формат графа. Представьте это как создание цифровой версии дорожной сети, где перекрестки являются узлами, а дороги между ними — ребрами. Этот «пиксельный граф» отражает связность карты, что упрощает вычислительный расчет маршрутов.

4. Создание идеальных маршрутов с помощью «критика маршрутов» на основе ИИ.

Наконец, для каждой карты мы выбираем тысячи случайных начальных и конечных точек на графе. Мы используем классический алгоритм Дейкстры, чтобы найти кратчайший путь между этими точками. Затем мы используем другую модель MLLM в качестве «критика пути» для проведения окончательной проверки качества. Этот критик рассматривает сгенерированный путь, наложенный на изображение карты, и дает ему оценку «хорошо» или «плохо», гарантируя, что маршрут логичен, не выходит за рамки линий и выглядит как путь, по которому пошел бы человек.

Примеры путей, сгенерированных предлагаемым конвейером.

Этот алгоритм позволил нам создать набор данных из 2 миллионов аннотированных изображений карт с корректными путями. Хотя сгенерированные изображения иногда содержат опечатки, данное исследование в основном сосредоточено на точности определения пути. Мы предполагаем, что дальнейшее развитие генеративного моделирования естественным образом уменьшит эти артефакты в будущих итерациях.

Результаты: Четкий путь к улучшению пространственного мышления.

Итак, действительно ли работает обучение на этих синтетических данных? Чтобы это выяснить, мы дообучили несколько моделей MLLM на меньшем подмножестве сгенерированных данных (23 000 путей), взятых из нашего набора данных, включая открытые Gemma 3 27B и Gemini 2.5 Flash. Затем мы оценили их производительность на MapBench, популярном бенчмарке, состоящем из реальных карт, которые модели MLLM не видели во время обучения.

Мы измерили ошибку трассировки пути с помощью метрики нормализованного динамического искажения времени (NDTW), которая является расширением динамического искажения времени, используемым для сравнения двух последовательностей координат, которые могут различаться по скорости (или количеству прогнозируемых точек, в данном случае). Затем выходные данные нормализуются по общей длине пути для получения окончательной нормализованной метрики, то есть расстояния между двумя путями, причем меньшее значение демонстрирует лучшую производительность. На рисунке ниже показано, как вычисляется метрика NDTW, подробно описывая процесс выравнивания. На рисунке (а) показано двумерное выравнивание эталонного пути (синий) и пути запроса (красный, сдвинутый на Y=1,0 для визуализации). Серые линии соединяют совпадающие точки, идентифицированные DTW, демонстрируя обработку фазового сдвига и разницы выборок. На рисунках (b) и (c) показаны матрица накопленных затрат и матрица попарных евклидовых расстояний, иллюстрирующие, как оптимальный путь искажения (белый) отслеживает пары с наименьшим расстоянием для минимизации общей стоимости выравнивания. Наконец, на рисунке (d) показано одномерное сравнение x-координат, демонстрирующее проблему временного выравнивания, которую решает DTW: сигналы имеют схожую форму, но разные частоты дискретизации и временные смещения.

Анализ методом динамического искажения времени (DTW) двух двумерных траекторий.

Тонкая настройка на нашем наборе данных существенно улучшила возможности моделей в целом. Например, у доработанной модели Gemini 2.5 Flash показатель NDTW значительно снизился (с 1,29 до 0,87), что позволило достичь наилучших общих результатов.

Что еще более важно, модели стали гораздо надежнее. Показатель успешности, то есть процент случаев, когда модель выдавала корректный, пригодный для анализа путь, вырос для всех моделей. У доработанной модели Gemma показатель успешности увеличился на 6,4 пункта, а показатель NDTW улучшился (с 1,29 до 1,13), что является существенным улучшением, демонстрирующим вновь обретенную устойчивость. Это означает, что после обучения на нашем наборе данных модели не просто стали точнее в случаях успеха; вероятность полного провала значительно снизилась.

Проведена количественная оценка повышения производительности MapBench за счет обучения на сгенерированных наборах данных. Мы отмечаем значительные улучшения в NDTW, а также в показателе успешности (успешное обнаружение допустимого пути).

Эти достижения подтверждают нашу основную гипотезу: детальное пространственное мышление — это не врожденное свойство моделей машинного обучения, а приобретенный навык. При наличии соответствующего явного контроля, даже если он генерируется синтетически, мы можем научить модели понимать и ориентироваться в пространственных структурах.

Оценка эффективности критиков, использующих искусственный интеллект.

Для проверки правильности пути мы вручную проанализировали 120 решений на 56 случайно выбранных картах, достигнув точности 76% при уровне ложноположительных результатов 8% (недействительные пути, помеченные как «высококачественные»). Ошибки в основном возникали из-за 1) неправильной классификации фоновых областей как проходимых, когда цвета напоминают пути, и 2) пропуска тонких действительных путей внутри больших открытых областей. Для проверки маски мы проверили 200 решений на 20 картах, достигнув точности 83% и уровня ложноположительных результатов 9%. К распространенным ошибкам относились: 1) включение фоновых пикселей из-за сходства цветов, 2) поглощение мелких элементов, не являющихся путями (например, текста), в остальном правильными масками, и 3) пометка тонких действительных путей как недействительных.

Качественные примеры сравнения доработанной модели Gemini-2.5-Flash ( красный ) с базовой моделью ( синий ). Доработанная модель точнее следует заданным маршрутам и избегает непроходимых участков.

Что дальше?

Способность анализировать пути и взаимосвязи открывает множество возможностей для применения в будущем, в том числе:

Более интуитивно понятные инструменты навигации: модель искусственного интеллекта, способная анализировать спутниковые снимки или сложные карты метро и предоставлять действительно интуитивно понятные, визуально обоснованные указания.
Более совершенная робототехника и автономные агенты: роботы, способные перемещаться в сложных внутренних помещениях, таких как склады, больницы или аэропорты, просто взглянув на план помещения.
Улучшенная доступность: Инструменты, позволяющие людям с нарушениями зрения четко и пошагово описать маршрут передвижения по зданию.

Благодарности

Данное исследование было проведено Артемис Панагопулу (во время работы в качестве студента-исследователя в Google), Мохитом Гоялом, Сорошем Яздани, Флорианом Дюбостом, Чен Чаем, Ачином Кулшрестхой и Авиком Пурохитом.

Источник: research.google

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Обучение ИИ чтению карты

Быстрые ссылки

Проблема: Недостаточное понимание физического мира.

Решение: масштабируемый конвейер для обработки синтетических данных.

Результаты: Четкий путь к улучшению пространственного мышления.

Оценка эффективности критиков, использующих искусственный интеллект.

Что дальше?

Благодарности

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Быстрые ссылки

Проблема: Недостаточное понимание физического мира.

Решение: масштабируемый конвейер для обработки синтетических данных.

Результаты: Четкий путь к улучшению пространственного мышления.

Оценка эффективности критиков, использующих искусственный интеллект.

Что дальше?

Благодарности

Похожие записи

Похожие записи

Смешно и сыро — именно так выглядит будущий миллиард.

Глубокое обучение с подкреплением: от 0 до 100

Ключевые инновации в робототехнике 2025 года

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI