Новый подход, разработанный в Массачусетском технологическом институте, может помочь поисково-спасательному роботу ориентироваться в непредсказуемой среде, быстро создавая точную карту окрестностей.
Система, управляемая искусственным интеллектом, постепенно создает и выравнивает более мелкие подкарты сцены, которые затем сшивает вместе для восстановления полной трехмерной карты, например, офисной кабинки, одновременно оценивая положение робота в реальном времени. Изображение предоставлено исследователями.
Робот, ищущий рабочих, заблокированных в частично обрушившейся шахте, должен быстро составить карту местности и определить свое местоположение, перемещаясь по опасному рельефу.
Недавно исследователи начали создавать мощные модели машинного обучения для выполнения этой сложной задачи, используя только изображения с бортовых камер робота, но даже лучшие модели могут обрабатывать лишь несколько изображений за раз. В реальной катастрофе, где каждая секунда на счету, поисково-спасательному роботу потребуется быстро перемещаться по большим территориям и обрабатывать тысячи изображений, чтобы выполнить свою миссию.
Для решения этой проблемы исследователи из Массачусетского технологического института, опираясь на идеи как современных моделей искусственного интеллекта в области компьютерного зрения, так и классического компьютерного зрения, разработали новую систему, способную обрабатывать произвольное количество изображений. Их система за считанные секунды точно генерирует 3D-карты сложных сцен, таких как переполненный офисный коридор.
Система, управляемая искусственным интеллектом, постепенно создает и выравнивает более мелкие подкарты сцены, которые затем объединяют для восстановления полной трехмерной карты, одновременно оценивая положение робота в реальном времени.
В отличие от многих других подходов, их методика не требует калиброванных камер или специалиста для настройки сложной системы. Более простая природа их подхода в сочетании со скоростью и качеством 3D-реконструкций облегчит масштабирование для реальных приложений.
Этот метод, помимо помощи поисково-спасательным роботам в навигации, может быть использован для создания приложений расширенной реальности для носимых устройств, таких как VR-гарнитуры, или для обеспечения возможности промышленным роботам быстро находить и перемещать товары внутри склада.
«Для выполнения роботами все более сложных задач им необходимы гораздо более сложные картографические представления окружающего мира. Но в то же время мы не хотим усложнять практическую реализацию этих карт. Мы показали, что можно создать точную 3D-реконструкцию за считанные секунды с помощью инструмента, который работает «из коробки», — говорит Доминик Маджио, аспирант Массачусетского технологического института и ведущий автор статьи об этом методе.
Вместе с Маджио в работе над статьей приняли участие научный сотрудник Хёнте Лим и старший автор Лука Карлоне, доцент кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института, руководитель исследовательского проекта в Лаборатории информационных и управленческих систем (LIDS) и директор лаборатории MIT SPARK. Результаты исследования будут представлены на конференции по нейронным системам обработки информации.
Разработка плана решения
В течение многих лет исследователи пытались решить важную задачу в области робототехники, называемую одновременной локализацией и картографированием (SLAM). В SLAM робот воссоздает карту окружающей среды, одновременно ориентируясь в пространстве.
Традиционные методы оптимизации для этой задачи, как правило, не справляются со сложными условиями или требуют предварительной калибровки бортовых камер робота. Чтобы избежать этих недостатков, исследователи обучают модели машинного обучения для решения этой задачи на основе данных.
Хотя их проще реализовать, даже лучшие модели могут обрабатывать одновременно лишь около 60 изображений с камеры, что делает их непригодными для приложений, где роботу необходимо быстро перемещаться в разнообразной среде, обрабатывая при этом тысячи изображений.
Для решения этой проблемы исследователи из Массачусетского технологического института разработали систему, которая генерирует меньшие по размеру подкарты сцены, а не всю карту целиком. Их метод «склеивает» эти подкарты вместе в одну общую 3D-реконструкцию. Модель по-прежнему обрабатывает лишь несколько изображений за раз, но система может воссоздавать более крупные сцены гораздо быстрее, сшивая вместе меньшие по размеру подкарты.
«Это казалось очень простым решением, но когда я впервые попробовал его, я с удивлением обнаружил, что оно не очень хорошо работает», — говорит Маджио.
В поисках объяснения он углубился в научные работы по компьютерному зрению 1980-х и 1990-х годов. В результате этого анализа Маджио понял, что ошибки в обработке изображений моделями машинного обучения делают выравнивание подкарт более сложной задачей.
Традиционные методы выравнивают подкарты путем применения вращений и перемещений до тех пор, пока они не совпадут. Однако новые модели могут вносить некоторую неоднозначность в подкарты, что затрудняет их выравнивание. Например, 3D-подкарта одной стороны комнаты может иметь стены, которые слегка изогнуты или растянуты. Простое вращение и перемещение таких деформированных подкарт для их выравнивания не сработает.
«Нам нужно убедиться, что все подкарты деформированы согласованным образом, чтобы мы могли хорошо выровнять их друг с другом», — объясняет Карлоне.
Более гибкий подход
Заимствуя идеи из классического компьютерного зрения, исследователи разработали более гибкий математический метод, способный отображать все деформации на этих подкартах. Применяя математические преобразования к каждой подкарте, этот более гибкий метод позволяет выравнивать их таким образом, чтобы устранить неоднозначность.
На основе входных изображений система выдает трехмерную реконструкцию сцены и приблизительные координаты камер, которые робот использует для определения своего местоположения в пространстве.
«Как только Доминик интуитивно понял, как соединить эти два мира — подходы, основанные на машинном обучении, и традиционные методы оптимизации — реализация оказалась довольно простой», — говорит Карлоне. «Создание чего-то настолько эффективного и простого имеет потенциал для множества применений».
Их система работала быстрее и с меньшей погрешностью реконструкции, чем другие методы, не требуя специальных камер или дополнительных инструментов для обработки данных. Исследователи создали практически в реальном времени трехмерные реконструкции сложных сцен, таких как интерьер часовни Массачусетского технологического института, используя только короткие видеоролики, снятые на мобильный телефон.
Средняя погрешность этих трехмерных реконструкций составила менее 5 сантиметров.
В будущем исследователи планируют повысить надежность своего метода для особенно сложных сцен и работать над его внедрением на реальных роботах в сложных условиях.
«Знание традиционной геометрии приносит свои плоды. Если вы глубоко понимаете, что происходит в модели, вы можете получить гораздо лучшие результаты и сделать ее гораздо более масштабируемой», — говорит Карлоне.
Данная работа частично поддержана Национальным научным фондом США, Управлением военно-морских исследований США и Национальным исследовательским фондом Кореи. Карлоне, в настоящее время находящийся в творческом отпуске в качестве стипендиата Amazon, завершил эту работу до того, как присоединился к Amazon.
Источник: news.mit.edu



























