Система, управляемая искусственным интеллектом, позволяет пользователям проектировать и создавать простые многокомпонентные объекты, описывая их словами.
↓ Скачать подпись к изображению : На этих шести фотографиях показана роботизированная сборка многокомпонентных объектов с помощью текста, полученного от разных пользователей. Авторские права : Предоставлено исследователями.
Получив подсказку «Сделай мне стул» и ответ «Я хочу, чтобы на сиденье были панели», робот собирает стул и размещает компоненты панелей в соответствии с подсказкой пользователя. Изображение предоставлено исследователями.
На этих шести фотографиях показана роботизированная сборка многокомпонентных объектов с помощью текста, полученного в ответ на различные запросы пользователя. Авторские права принадлежат исследователям.
Системы автоматизированного проектирования (САПР) — это проверенные временем инструменты, используемые для проектирования многих физических объектов, которыми мы пользуемся каждый день. Однако для освоения программного обеспечения САПР требуется обширный опыт, а многие инструменты содержат настолько высокий уровень детализации, что не подходят для мозгового штурма или быстрого прототипирования.
Стремясь сделать проектирование быстрее и доступнее для неспециалистов, исследователи из Массачусетского технологического института и других учреждений разработали роботизированную систему сборки на основе искусственного интеллекта, которая позволяет людям создавать физические объекты, просто описывая их словами.
Их система использует генеративную модель искусственного интеллекта для построения трехмерного представления геометрии объекта на основе запроса пользователя. Затем вторая генеративная модель искусственного интеллекта анализирует желаемый объект и определяет, где должны располагаться различные компоненты в соответствии с функцией и геометрией объекта.
Система может автоматически создавать объект из набора предварительно изготовленных деталей с помощью роботизированной сборки. Она также может итеративно дорабатывать дизайн на основе отзывов пользователя.
Исследователи использовали эту комплексную систему для изготовления мебели, включая стулья и полки, из двух типов готовых компонентов. Компоненты можно разбирать и собирать по желанию, что снижает количество отходов, образующихся в процессе изготовления.
Воспроизвести видео
Они оценили эти разработки в ходе пользовательского исследования и обнаружили, что более 90 процентов участников предпочли объекты, созданные их системой на основе искусственного интеллекта, по сравнению с другими подходами.
Хотя эта работа представляет собой лишь первоначальную демонстрацию, данная структура может быть особенно полезна для быстрого прототипирования сложных объектов, таких как компоненты аэрокосмической отрасли и архитектурные объекты. В долгосрочной перспективе ее можно будет использовать в домах для изготовления мебели или других предметов на месте, без необходимости доставки громоздких изделий с центрального предприятия.
«Рано или поздно мы хотим иметь возможность общаться и взаимодействовать с роботом и системой искусственного интеллекта так же, как мы общаемся друг с другом, чтобы вместе что-то создавать. Наша система — это первый шаг к реализации этого будущего», — говорит ведущий автор Алекс Кьяу, аспирант кафедр электротехники и информатики (EECS) и архитектуры Массачусетского технологического института.
В работе над статьей к Кьяу присоединились Рича Гупта, аспирантка архитектурного факультета Массачусетского технологического института; Фаэз Ахмед, доцент кафедры машиностроения; Лоуренс Сасс, профессор и заведующий вычислительной группой на кафедре архитектуры; старший автор Рэндалл Дэвис, профессор кафедры электротехники и информатики и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); а также другие сотрудники Google Deepmind и Autodesk Research. Статья была недавно представлена на конференции по нейронным системам обработки информации.
Создание многокомпонентной конструкции
Хотя модели генеративного ИИ хорошо справляются с созданием трехмерных представлений, известных как сетки, на основе текстовых запросов, большинство из них не позволяют получить единообразные представления геометрии объекта, обладающие необходимой детализацией на уровне компонентов для роботизированной сборки.
Разделение этих сеток на компоненты представляет собой сложную задачу для модели, поскольку назначение компонентов зависит от геометрии и функциональности объекта и его частей.
Исследователи решили эти задачи, используя модель визуально-языкового восприятия (VLM) — мощную генеративную модель искусственного интеллекта, предварительно обученную понимать изображения и текст. Перед VLM поставлена задача определить, как два типа сборных деталей — конструктивные элементы и панельные компоненты — должны соединяться, образуя объект.
«Существует множество способов размещения панелей на физическом объекте, но роботу необходимо видеть геометрию и анализировать её, чтобы принять решение. Выполняя функции как глаз, так и мозга робота, VLM позволяет ему это делать», — говорит Кьяу.
Пользователь вводит в систему текст, например, набрав «сделай мне стул», и для начала предоставляет ей сгенерированное ИИ изображение стула.
Затем модель VLM анализирует конструкцию стула и определяет, где разместить панельные компоненты поверх несущих элементов, основываясь на функциональности множества ранее рассмотренных ею примеров объектов. Например, модель может определить, что сиденье и спинка должны иметь панели, чтобы обеспечить поверхности для сидения и опоры на стуле.
Эта информация выводится в виде текста, например, «сиденье» или «спинка». Затем каждая поверхность стула помечается числами, и эта информация передается обратно в VLM.
Затем VLM выбирает метки, соответствующие геометрическим частям стула, к которым на 3D-сетке должны быть прикреплены панели для завершения дизайна.
Совместное проектирование человеком и ИИ
Пользователь остается в курсе всего процесса и может доработать дизайн, задав модели новую подсказку, например: «используйте панели только на спинке, а не на сиденье».
«Пространство для проектирования очень велико, поэтому мы сужаем его, опираясь на отзывы пользователей. Мы считаем, что это лучший способ, потому что у людей разные предпочтения, и создать идеальную модель для всех было бы невозможно», — говорит Кьяу.
«Участие человека в процессе позволяет пользователям направлять разработку дизайна с помощью ИИ и чувствовать себя причастными к конечному результату», — добавляет Гупта.
После завершения создания 3D-сетки роботизированная сборочная система собирает объект, используя предварительно изготовленные детали. Эти многоразовые детали можно разбирать и собирать в различные конфигурации.
Исследователи сравнили результаты своего метода с алгоритмом, который размещает панели на всех горизонтальных поверхностях, обращенных вверх, и с алгоритмом, который размещает панели случайным образом. В ходе пользовательского исследования более 90 процентов респондентов предпочли дизайн, созданный их системой.
Они также попросили VLM объяснить, почему компания решила разместить панели именно в этих местах.
«Мы выяснили, что модель визуального языка способна в определенной степени понимать функциональные аспекты стула, такие как положение спинки и положение сидя, и понимать, почему она размещает панели на сиденье и спинке. Она не просто случайным образом выдает эти задания», — говорит Кьяу.
В будущем исследователи планируют усовершенствовать свою систему для обработки более сложных и тонких запросов пользователей, например, стола, изготовленного из стекла и металла. Кроме того, они хотят включить в систему дополнительные сборные компоненты, такие как шестерни, шарниры или другие движущиеся части, чтобы объекты могли обладать большей функциональностью.
«Мы надеемся значительно снизить барьер доступа к инструментам проектирования. Мы показали, что можем использовать генеративный искусственный интеллект и робототехнику для быстрого, доступного и экологичного воплощения идей в физические объекты», — говорит Дэвис.
Источник: news.mit.edu






















