Сможет ли искусственный интеллект подсказать, где вы оставили ключи?
Подпись : Исследователи из Массачусетского технологического института разработали систему долговременной памяти для роботов, которая сочетает в себе передовые картографические представления с подробным описанием окружающей среды. На этом снимке движущийся робот прикрепляет подробные описания к велосипедам, которые он видит и исследует. Источник : Предоставлено исследователями.
Подпись : Используя DAAAM, робот может быстро получить доступ к своей памяти, чтобы отвечать на сложные вопросы об окружающей среде простым языком. Здесь, чтобы ответить на вопрос, робот ищет в своей памяти слово «скульптура», чтобы вспомнить произведения искусства, которые он видел в кампусе. Источник : Предоставлено исследователями.
Работница автомобильного завода может вспомнить, где она оставила частично собранную деталь накануне вечером, и быстро вернуться на это место, чтобы забрать её. Но роботам, которые могли бы работать с ней бок о бок, было бы трудно развить и использовать подобную «пространственно-временную» память.
Теперь исследователи из Массачусетского технологического института разработали систему долговременной памяти, которая позволяет роботам быстро формировать и воспроизводить подробную мысленную модель сложных, крупномасштабных сред.
В будущем это достижение позволит заводскому рабочему отправлять роботизированного помощника за нужным предметом, просто попросив его: «Иди и возьми компонент, который мы начали собирать прошлой ночью».
Этот новый метод сочетает в себе передовые методы представления карт с подробным описанием окружающей среды, которое робот собирает во время длительного путешествия. Робот может быстро получить доступ к этой памяти, чтобы отвечать на сложные запросы об окружающей среде простым языком.
Эта система запоминания, которая отвечает на вопросы точнее, чем самые современные методы, работает достаточно быстро, чтобы мобильный робот мог использовать её в режиме реального времени.
Помимо потенциального применения в робототехнике, этот метод может найти применение в системах дополненной реальности, которые помогают обслуживающему персоналу обнаруживать аномалии или помогают пассажирам ориентироваться на местности.
«Если мы хотим, чтобы роботы работали бок о бок с людьми и лучше взаимодействовали с ними, они должны говорить на одном языке. Робот должен уметь рассуждать о времени и пространстве так же, как и люди. По сути, именно это и делает наш метод. Он превращает традиционную карту в карту, основанную на языке, которую роботу проще воспринимать и использовать с помощью языка», — говорит Лука Карлоне, доцент кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института, руководитель исследовательского проекта в Лаборатории информационных и систем принятия решений (LIDS) и директор лаборатории MIT SPARK.
Вместе с ним в работе над статьей приняли участие ведущий автор Николас Горло, аспирант Массачусетского технологического института, и Лукас Шмид, бывший научный сотрудник Массачусетского технологического института, а ныне профессор Нюрнбергского технологического университета в Германии. Результаты исследования были недавно представлены на конференции по компьютерному зрению и распознаванию образов (CVPR).
Пространственно-временная память
Память позволяет системам искусственного интеллекта, таким как чат-боты, отвечать на сложные вопросы и анализировать предыдущие взаимодействия с пользователем.
«Мы хотим разработать новый тип памяти, пространственно-временную память, которая позволит роботу с искусственным интеллектом запоминать реальные взаимодействия и данные с датчиков. Как ChatGPT, но основанный на реальном мире и способный отвечать на любые вопросы об окружающей среде, например: „Где я оставил свой кошелек?“», — говорит Карлоне.
Для разработки такой системы памяти исследователи из Массачусетского технологического института объединили два направления работы: компьютерное зрение и роботизированное картографирование.
Мультимодальные модели компьютерного зрения способны понимать и подробно описывать объекты в сцене, но часто обрабатывают только одну аннотацию за раз. С другой стороны, роботизированные системы картографирования создают 3D-карты окружающей среды, например, целой квартиры или университетского кампуса, но обычно им не хватает подробных описаний объектов или они требуют больших вычислительных затрат.
Метод, разработанный исследователями из Массачусетского технологического института и названный Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM), сочетает в себе лучшие черты обоих подходов.
Используя DAAAM, робот, перемещаясь по окружающей среде, добавляет подробные описания к видимым объектам. Например, робот может отметить, что конкретное здание в кампусе MIT называется Центром Стата и имеет определенный архитектурный стиль, или что на велопарковке пять велосипедов, а у красного спущено колесо.
Эта подробная информация хранится в трехмерном картографическом представлении, пространственно организованном таким образом, что объекты группируются в отдельные области. Благодаря этому робот может запомнить, что красный велосипед со спущенной шиной находится на велопарковке возле Стата-центра.
Однако существующие методы, позволяющие получать такие подробные описания, обычно требуют всего несколько секунд для аннотирования нескольких объектов. Это слишком медленно для работы в режиме реального времени, поскольку робот может увидеть сотни объектов за несколько минут исследования.
«Чем быстрее робот сможет сформировать эту пространственную память, тем эффективнее он будет выполнять действия в окружающей среде», — добавляет Карлоне.
Оптимизация процесса
Для ускорения процесса DAAAM собирает информацию о находящихся поблизости объектах по мере их перемещения и использует метод оптимизации для выбора ключевых кадров для аннотирования. Это изображения с наиболее четким изображением нескольких объектов, что позволяет системе подробно описывать несколько объектов параллельно, ускоряя вычисления в десять раз.
По мере исследования пространства робот прикрепляет каждую группу аннотаций к нескольким объектам в определенном месте на трехмерной карте.
«Мы аннотируем каждый объект только один раз, поэтому наша система может работать в очень больших средах в режиме реального времени. А благодаря кластеризации объектов по регионам, она может отвечать на широкий спектр запросов об объектах и местоположениях в окружающей среде», — объясняет Горло.
После того как система сформирует эту пространственную память, ей необходимо эффективно извлекать информацию из огромной базы данных объектов и их описаний.
Для этого исследователи использовали LLM, которая задействует различные инструменты, позволяющие быстро получать конкретную информацию таким образом, чтобы уменьшить количество галлюцинаций. Это позволяет DAAAM точно отвечать на запрос пользователя всего за несколько секунд.
Например, если спросить робота о какой-либо скульптуре, которую он видел рядом со зданием кампуса Массачусетского технологического института, DAAAM может использовать инструмент семантического поиска для получения информации по слову «скульптура» или другой инструмент для получения информации по местоположению здания.
При тестировании и сравнении с другими методами точность DAAAM оказалась на 21–53 процента выше, в зависимости от типа вопроса.
В будущем исследователи планируют расширить возможности DAAAM, чтобы система могла фиксировать значимые события, происходящие в окружающей среде. Они также работают над включением уровней достоверности в ответы системы.
«В конечном итоге, мы хотим иметь роботов, которые могут помогать в выполнении любых задач. С помощью этой платформы мы пытаемся создать основу для создания универсального агента, способного делать все, что вы попросите», — говорит Горло.
Данное исследование частично финансировалось Исследовательской лабораторией армии США и Управлением военно-морских исследований. В настоящее время Карлоне находится в творческом отпуске в качестве стипендиата Amazon; эта статья описывает работу, выполненную в Массачусетском технологическом институте, и не связана с компанией Amazon.
Источник: news.mit.edu
Похожие записи
Оцените материал:
Похожие записи
Для владельцев кошек разработали революционный лоток с функцией самоочистки
16.11.2024
«Комета-корабль» 3I/ATLAS может доставлять особые вещества на молодые планеты
09.12.2025
Вышел первый отчет OpenAI о внедрении ИИ в бизнесе
09.12.2025Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
