Благодаря этой новой технологии робот сможет более точно обнаруживать скрытые объекты или понимать обстановку в помещении, используя отраженные сигналы Wi-Fi.
↓ Скачать подпись к изображению : Команда также разработала расширенную систему, которая полностью восстанавливает целые сцены в помещении, используя отражения беспроводного сигнала от движущихся в комнате людей. Авторские права : Предоставлено исследователями.
Исследователи из Массачусетского технологического института использовали специально обученные модели генеративного искусственного интеллекта для создания системы, способной восстанавливать форму скрытых трехмерных объектов, подобных изображенным на фотографии. (Фото: Предоставлено исследователями)
Команда также разработала расширенную систему, которая полностью восстанавливает целые сцены в помещении, используя отражения беспроводного сигнала от движущихся в комнате людей. (Фото: Предоставлено исследователями)
Исследователи из Массачусетского технологического института более десяти лет изучают методы, позволяющие роботам находить и манипулировать скрытыми объектами, «видя» сквозь препятствия. Их методы используют беспроводные сигналы, проникающие сквозь поверхность и отражающиеся от скрытых предметов.
Теперь исследователи используют модели генеративного искусственного интеллекта для преодоления давнего узкого места, ограничивавшего точность предыдущих подходов. В результате появился новый метод, позволяющий получать более точные реконструкции формы, что может улучшить способность робота надежно захватывать и манипулировать объектами, скрытыми от его поля зрения.
Эта новая методика позволяет создать частичную реконструкцию скрытого объекта на основе отраженных беспроводных сигналов и заполнить недостающие части его формы с помощью специально обученной генеративной модели искусственного интеллекта.
Исследователи также представили расширенную систему, использующую генеративный искусственный интеллект для точной реконструкции всей комнаты, включая всю мебель. Система использует беспроводные сигналы, посылаемые одним стационарным радаром, которые отражаются от движущихся в пространстве людей.
Это позволяет преодолеть одну из ключевых проблем многих существующих методов, которые требуют установки беспроводного датчика на мобильном роботе для сканирования окружающей среды. И в отличие от некоторых популярных методов, основанных на использовании камер, этот метод обеспечивает конфиденциальность людей, находящихся в окружающей среде.
Эти инновации могут позволить складским роботам проверять упакованные товары перед отправкой, устраняя потери от возврата продукции. Они также могут позволить умным домашним роботам определять местоположение человека в комнате, повышая безопасность и эффективность взаимодействия человека и робота.
«Сейчас мы разработали генеративные модели искусственного интеллекта, которые помогают нам понимать беспроводные отражения. Это открывает множество интересных новых применений, но технически это также качественный скачок в возможностях: от заполнения пробелов, которые мы раньше не могли заметить, до интерпретации отражений и реконструкции целых сцен», — говорит Фадель Адиб, доцент кафедры электротехники и информатики, директор группы кинетики сигналов в лаборатории MIT Media Lab и старший автор двух статей об этих методах. «Мы используем ИИ, чтобы наконец-то открыть возможности беспроводного зрения».
В первой статье к Адибу присоединились ведущий автор и научный сотрудник Лаура Доддс, а также научные сотрудники Мейси Лам, Валид Акбар и Ибо Ченг; во второй статье – ведущий автор и бывший постдокторант Кайчен Чжоу, Доддс и научный сотрудник Саид Саад Афзал. Обе статьи будут представлены на конференции IEEE по компьютерному зрению и распознаванию образов.
Преодоление зеркальности
Ранее группа Adib продемонстрировала использование сигналов миллиметрового диапазона (mmWave) для создания точных реконструкций трехмерных объектов, скрытых от глаз, например, потерянного кошелька, зарытого под грудой бумаг.
Эти волны, которые представляют собой тот же тип сигналов, что и в Wi-Fi, могут проходить сквозь распространенные препятствия, такие как гипсокартон, пластик и картон, и отражаться от скрытых объектов.
Однако миллиметровые волны обычно отражаются зеркально, то есть волна отражается в одном направлении после удара о поверхность. Поэтому большие участки поверхности будут отражать сигналы от датчика миллиметровых волн, делая эти области фактически невидимыми.
«Когда мы хотим реконструировать объект, мы видим только его верхнюю поверхность, а нижнюю и боковые стороны не видим», — объясняет Доддс.
Ранее исследователи использовали принципы физики для интерпретации отраженных сигналов, но это ограничивает точность реконструированной трехмерной формы.
В новых работах они преодолели это ограничение, используя генеративную модель искусственного интеллекта для заполнения недостающих частей в частичной реконструкции.
«Но тогда возникает вопрос: как обучить эти модели заполнять эти пробелы?» — говорит Адиб.
Обычно исследователи используют чрезвычайно большие наборы данных для обучения генеративной модели ИИ, и это одна из причин, почему такие модели, как Claude и Llama, демонстрируют столь впечатляющие результаты. Но ни один набор данных миллиметровых волн не является достаточно большим для обучения.
Вместо этого исследователи адаптировали изображения из больших наборов данных компьютерного зрения, чтобы имитировать свойства отражений миллиметровых волн.
«Мы имитировали свойство зеркального отражения и шум, возникающий при этих отражениях, чтобы затем применить существующие наборы данных к нашей области. На сбор достаточного количества новых данных для этого у нас ушли бы годы», — говорит Лам.
Исследователи внедряют физические принципы отражения миллиметровых волн непосредственно в эти адаптированные данные, создавая синтетический набор данных, который они используют для обучения модели генеративного искусственного интеллекта выполнению правдоподобных реконструкций формы.
Полноценная система, называемая Wave-Former, предлагает набор потенциальных поверхностей объекта на основе отражений миллиметровых волн, передает их генеративной модели искусственного интеллекта для завершения формирования формы, а затем уточняет поверхности до тех пор, пока не будет достигнута полная реконструкция.
Компания Wave-Former смогла создать точные реконструкции примерно 70 предметов повседневного обихода, таких как банки, коробки, столовые приборы и фрукты, повысив точность почти на 20 процентов по сравнению с современными базовыми моделями. Предметы были скрыты за или под картоном, деревом, гипсокартоном, пластиком и тканью.
Видеть «призраков»
Команда использовала тот же подход для создания расширенной системы, которая полностью восстанавливает целые сцены в помещении, используя отражения миллиметровых волн от движущихся в комнате людей.
Движение человека вызывает многолучевое отражение. Некоторые миллиметровые волны отражаются от человека, затем снова от стены или объекта, а затем возвращаются к датчику, объясняет Доддс.
Эти вторичные отражения создают так называемые «фантомные сигналы», которые представляют собой отраженные копии исходного сигнала, изменяющие свое местоположение в зависимости от движения человека. Эти фантомные сигналы обычно отбрасываются как шум, но они также содержат информацию о планировке помещения.
«Анализируя, как эти отражения меняются со временем, мы можем начать получать приблизительное представление об окружающей нас среде. Но попытка прямой интерпретации этих сигналов будет ограничена по точности и разрешению», — говорит Доддс.
Они использовали аналогичный метод обучения, чтобы научить модель генеративного искусственного интеллекта интерпретировать эти приблизительные реконструкции сцены и понимать поведение многолучевых отражений миллиметровых волн. Эта модель заполняет пробелы, уточняя первоначальную реконструкцию до тех пор, пока не завершит реконструкцию сцены.
Они протестировали свою систему реконструкции сцены, получившую название RISE, используя более 100 траекторий движения людей, зафиксированных одним миллиметровым радаром. В среднем, система RISE обеспечила реконструкцию, точность которой была примерно вдвое выше, чем у существующих методов.
В будущем исследователи планируют повысить детализацию и точность своих реконструкций. Они также хотят создать масштабные базовые модели для беспроводных сигналов, подобные базовым моделям GPT, Claude и Gemini для обработки языка и изображений, что может открыть новые возможности применения.
Данная работа частично поддержана Национальным научным фондом (NSF), медиа-лабораторией Массачусетского технологического института и компанией Amazon.
Источник: news.mit.edu






















