3D рендеринг рабочего стола с мониторами и объектами, показаны углы съемки камер.

Обучение роботов картографированию больших территорий

Новый подход, разработанный в Массачусетском технологическом институте, может помочь поисково-спасательному роботу ориентироваться в непредсказуемой среде, быстро создавая точную карту окрестностей. На рисунке показана траектория полета дрона, который делает фотографии, и частично воссозданная офисная кабинка, которую он обнаруживает. Система, управляемая искусственным интеллектом, постепенно создает и выравнивает более мелкие подкарты сцены, которые затем сшивает вместе для восстановления полной трехмерной карты, например, офисной кабинки, одновременно оценивая положение робота в реальном времени. Изображение предоставлено исследователями.

Робот, ищущий рабочих, заблокированных в частично обрушившейся шахте, должен быстро составить карту местности и определить свое местоположение, перемещаясь по опасному рельефу.

Недавно исследователи начали создавать мощные модели машинного обучения для выполнения этой сложной задачи, используя только изображения с бортовых камер робота, но даже лучшие модели могут обрабатывать лишь несколько изображений за раз. В реальной катастрофе, где каждая секунда на счету, поисково-спасательному роботу потребуется быстро перемещаться по большим территориям и обрабатывать тысячи изображений, чтобы выполнить свою миссию.

Для решения этой проблемы исследователи из Массачусетского технологического института, опираясь на идеи как современных моделей искусственного интеллекта в области компьютерного зрения, так и классического компьютерного зрения, разработали новую систему, способную обрабатывать произвольное количество изображений. Их система за считанные секунды точно генерирует 3D-карты сложных сцен, таких как переполненный офисный коридор.

Система, управляемая искусственным интеллектом, постепенно создает и выравнивает более мелкие подкарты сцены, которые затем объединяют для восстановления полной трехмерной карты, одновременно оценивая положение робота в реальном времени.

В отличие от многих других подходов, их методика не требует калиброванных камер или специалиста для настройки сложной системы. Более простая природа их подхода в сочетании со скоростью и качеством 3D-реконструкций облегчит масштабирование для реальных приложений.

Этот метод, помимо помощи поисково-спасательным роботам в навигации, может быть использован для создания приложений расширенной реальности для носимых устройств, таких как VR-гарнитуры, или для обеспечения возможности промышленным роботам быстро находить и перемещать товары внутри склада.

«Для выполнения роботами все более сложных задач им необходимы гораздо более сложные картографические представления окружающего мира. Но в то же время мы не хотим усложнять практическую реализацию этих карт. Мы показали, что можно создать точную 3D-реконструкцию за считанные секунды с помощью инструмента, который работает «из коробки», — говорит Доминик Маджио, аспирант Массачусетского технологического института и ведущий автор статьи об этом методе.

Вместе с Маджио в работе над статьей приняли участие научный сотрудник Хёнте Лим и старший автор Лука Карлоне, доцент кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института, руководитель исследовательского проекта в Лаборатории информационных и управленческих систем (LIDS) и директор лаборатории MIT SPARK. Результаты исследования будут представлены на конференции по нейронным системам обработки информации.

Разработка плана решения

В течение многих лет исследователи пытались решить важную задачу в области робототехники, называемую одновременной локализацией и картографированием (SLAM). В SLAM робот воссоздает карту окружающей среды, одновременно ориентируясь в пространстве.

Традиционные методы оптимизации для этой задачи, как правило, не справляются со сложными условиями или требуют предварительной калибровки бортовых камер робота. Чтобы избежать этих недостатков, исследователи обучают модели машинного обучения для решения этой задачи на основе данных.

Хотя их проще реализовать, даже лучшие модели могут обрабатывать одновременно лишь около 60 изображений с камеры, что делает их непригодными для приложений, где роботу необходимо быстро перемещаться в разнообразной среде, обрабатывая при этом тысячи изображений.

Для решения этой проблемы исследователи из Массачусетского технологического института разработали систему, которая генерирует меньшие по размеру подкарты сцены, а не всю карту целиком. Их метод «склеивает» эти подкарты вместе в одну общую 3D-реконструкцию. Модель по-прежнему обрабатывает лишь несколько изображений за раз, но система может воссоздавать более крупные сцены гораздо быстрее, сшивая вместе меньшие по размеру подкарты.

«Это казалось очень простым решением, но когда я впервые попробовал его, я с удивлением обнаружил, что оно не очень хорошо работает», — говорит Маджио.

В поисках объяснения он углубился в научные работы по компьютерному зрению 1980-х и 1990-х годов. В результате этого анализа Маджио понял, что ошибки в обработке изображений моделями машинного обучения делают выравнивание подкарт более сложной задачей.

Традиционные методы выравнивают подкарты путем применения вращений и перемещений до тех пор, пока они не совпадут. Однако новые модели могут вносить некоторую неоднозначность в подкарты, что затрудняет их выравнивание. Например, 3D-подкарта одной стороны комнаты может иметь стены, которые слегка изогнуты или растянуты. Простое вращение и перемещение таких деформированных подкарт для их выравнивания не сработает.

«Нам нужно убедиться, что все подкарты деформированы согласованным образом, чтобы мы могли хорошо выровнять их друг с другом», — объясняет Карлоне.

Более гибкий подход

Заимствуя идеи из классического компьютерного зрения, исследователи разработали более гибкий математический метод, способный отображать все деформации на этих подкартах. Применяя математические преобразования к каждой подкарте, этот более гибкий метод позволяет выравнивать их таким образом, чтобы устранить неоднозначность.

На основе входных изображений система выдает трехмерную реконструкцию сцены и приблизительные координаты камер, которые робот использует для определения своего местоположения в пространстве.

«Как только Доминик интуитивно понял, как соединить эти два мира — подходы, основанные на машинном обучении, и традиционные методы оптимизации — реализация оказалась довольно простой», — говорит Карлоне. «Создание чего-то настолько эффективного и простого имеет потенциал для множества применений».

Их система работала быстрее и с меньшей погрешностью реконструкции, чем другие методы, не требуя специальных камер или дополнительных инструментов для обработки данных. Исследователи создали практически в реальном времени трехмерные реконструкции сложных сцен, таких как интерьер часовни Массачусетского технологического института, используя только короткие видеоролики, снятые на мобильный телефон.

Средняя погрешность этих трехмерных реконструкций составила менее 5 сантиметров.

В будущем исследователи планируют повысить надежность своего метода для особенно сложных сцен и работать над его внедрением на реальных роботах в сложных условиях.

«Знание традиционной геометрии приносит свои плоды. Если вы глубоко понимаете, что происходит в модели, вы можете получить гораздо лучшие результаты и сделать ее гораздо более масштабируемой», — говорит Карлоне.

Данная работа частично поддержана Национальным научным фондом США, Управлением военно-морских исследований США и Национальным исследовательским фондом Кореи. Карлоне, в настоящее время находящийся в творческом отпуске в качестве стипендиата Amazon, завершил эту работу до того, как присоединился к Amazon.

Источник: news.mit.edu

✅ Найденные теги: Картографирование, новости, Обучение, роботы, Территории

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых