Мозаика из пиксельных видеоигр, разнообразные уровни с разными препятствиями.

Более эффективный метод планирования сложных визуальных задач.

Новая гибридная система может помочь роботам ориентироваться в меняющейся среде или повысить эффективность работы многороботных сборочных бригад. Несколько простых двухмерных видеоигр, представляющих собой лабиринты с препятствиями и призами. Справа на игровом поле спрятаны ловушки. Новая система на основе искусственного интеллекта генерирует планы для долгосрочных, сложных задач примерно в два раза лучше, чем некоторые существующие методы. Исследователи оценили свою систему, проверив, насколько хорошо она может создавать планы для достижения целей в шести двумерных сетчатых мирах, подобных показанным здесь. Изображение: Предоставлено исследователями.

Исследователи из Массачусетского технологического института разработали генеративный подход на основе искусственного интеллекта для планирования долгосрочных визуальных задач, таких как навигация роботов, который примерно вдвое эффективнее некоторых существующих методов.

Их метод использует специализированную модель визуально-языкового восприятия для распознавания сценария на изображении и моделирования действий, необходимых для достижения цели. Затем вторая модель переводит эти симуляции в стандартный язык программирования для задач планирования и уточняет решение.

В итоге система автоматически генерирует набор файлов, которые можно передать в классическое программное обеспечение для планирования, которое вычисляет план достижения цели. Эта двухэтапная система генерировала планы со средней вероятностью успеха около 70 процентов, превосходя лучшие базовые методы, которые могли достичь лишь около 30 процентов.

Важно отметить, что система способна решать новые задачи, с которыми она ранее не сталкивалась, что делает ее хорошо подходящей для реальных условий, где ситуация может измениться в любой момент.

«Наша система сочетает в себе преимущества моделей обработки изображений и языка, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя», — говорит Илун Хао, аспирант кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института и ведущий автор статьи в открытом доступе, посвященной этой методике. «Она может взять одно изображение, обработать его с помощью моделирования, а затем разработать надежный долгосрочный план, который может быть полезен во многих реальных приложениях».

Вместе с ней над статьей работали Йонгчао Чен, аспирант Лаборатории информационных и управленческих систем (LIDS) Массачусетского технологического института; Чучу Фан, доцент кафедры аэрокосмической техники и главный исследователь LIDS; и Ян Чжан, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson. Статья будет представлена на Международной конференции по обучению представлениям.

Решение задач, требующих визуального восприятия

В течение последних нескольких лет Фан и ее коллеги изучали использование генеративных моделей искусственного интеллекта для выполнения сложных рассуждений и планирования, часто применяя большие языковые модели (LLM) для обработки текстовых входных данных.

Многие реальные задачи планирования, такие как роботизированная сборка и автономное вождение, имеют визуальные входные данные, с которыми LLM (Low Language Model) не может справиться самостоятельно. Исследователи стремились расширить область применения на визуальную составляющую, используя модели визуально-языкового анализа (VLM) — мощные системы искусственного интеллекта, способные обрабатывать изображения и текст.

Однако виртуальные модели ландшафта (VLM) с трудом понимают пространственные взаимосвязи между объектами в сцене и часто не могут корректно рассуждать на протяжении многих шагов. Это затрудняет использование VLM для долгосрочного планирования.

С другой стороны, ученые разработали надежные, формальные системы планирования, способные генерировать эффективные долгосрочные планы для сложных ситуаций. Однако эти программные системы не могут обрабатывать визуальные данные и требуют экспертных знаний для кодирования проблемы на языке, понятном решателю.

Фан и ее команда разработали автоматизированную систему планирования, которая объединяет лучшие стороны обоих методов. Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные VLM-модели, которые работают вместе, чтобы преобразовывать задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования.

Сначала исследователи тщательно обучили небольшую модель, которую они назвали SimVLM, чтобы она специализировалась на описании сценария на изображении с использованием естественного языка и моделировании последовательности действий в этом сценарии. Затем гораздо более крупная модель, которую они назвали GenVLM, использует описание из SimVLM для генерации набора исходных файлов на формальном языке планирования, известном как язык определения предметной области планирования (PDDL).

Файлы готовы к передаче в классический решатель PDDL, который вычисляет пошаговый план решения задачи. GenVLM сравнивает результаты решателя с результатами симулятора и итеративно уточняет файлы PDDL.

«Генератор и симулятор работают вместе, чтобы достичь одного и того же результата — имитации действия, которая позволяет реализовать поставленную цель», — говорит Хао.

Поскольку GenVLM — это крупная генеративная модель искусственного интеллекта, в процессе обучения она просмотрела множество примеров PDDL-файлов и научилась тому, как этот формальный язык может решать широкий спектр задач. Эти знания позволяют модели генерировать точные PDDL-файлы.

Гибкий подход

VLMFP генерирует два отдельных PDDL-файла. Первый — это файл предметной области, определяющий среду, допустимые действия и правила предметной области. Он также создает файл задачи, определяющий начальные состояния и цель конкретной решаемой задачи.

«Одно из преимуществ PDDL заключается в том, что файл домена одинаков для всех экземпляров в данной среде. Это позволяет нашей платформе хорошо обобщать данные на ранее неизвестные экземпляры в рамках одного домена», — объясняет Хао.

Для обеспечения эффективной обобщающей способности системы исследователям необходимо было тщательно разработать достаточное количество обучающих данных для SimVLM, чтобы модель научилась понимать проблему и цель, не запоминая шаблоны в сценарии. При тестировании SimVLM успешно описывала сценарий, моделировала действия и определяла, была ли достигнута цель, примерно в 85 процентах экспериментов.

В целом, разработанная система VLMFP показала успешность около 60 процентов в шести задачах 2D-планирования и более 80 процентов в двух задачах 3D-планирования, включая взаимодействие нескольких роботов и роботизированную сборку. Она также сгенерировала корректные планы для более чем 50 процентов сценариев, которые ранее не встречались, значительно превзойдя базовые методы.

«Наша система способна к обобщению при изменении правил в различных ситуациях. Это обеспечивает ей гибкость в решении многих типов задач планирования на основе визуальных данных», — добавляет Фан.

В будущем исследователи планируют наделить VLMFP способностью обрабатывать более сложные сценарии и изучить методы выявления и смягчения галлюцинаций, вызываемых VLM.

«В долгосрочной перспективе генеративные модели ИИ могут выступать в роли агентов и использовать подходящие инструменты для решения гораздо более сложных задач. Но что значит иметь подходящие инструменты, и как мы можем их интегрировать? До полного решения еще далеко, но внедрение визуального планирования является важной частью этой головоломки», — говорит Фан.

Данная работа частично финансировалась лабораторией искусственного интеллекта MIT-IBM Watson.

Источник: news.mit.edu

✅ Найденные теги: Более, Визуальные, Задачи, МЕТОД, новости, Планирование

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Капли дождя падают на землю, образуя брызги на мокрой почве.
Капли дождя падают на землю, создавая брызги на мокрой почве.
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.
Робот-гуманоид Tesla с черной головой и белым туловищем на фоне.
Два персонажа сражаются световыми мечами на темном фоне сцены из фильма.
Археологическая находка: каменная гробница и скелет в древнем сооружении.
Автоматизация программирования на Python: конвейеры, графики и код.
Два человека пожимают руки на фоне синего логотипа компании.
Схематичное изображение человеческого мозга на фоне компьютерных технологий.
Image Not Found
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.

Сегодня астронавты миссии «Артемида-2» установят новый рекорд расстояния от Земли.

Во время полета космического корабля «Орион» вокруг Луны экипаж «Артемиды II» побьет рекорд, установленный «Аполлоном-13» в 1970 году. Эндрю Лишевски, старший репортер отдела новостей. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и…

Апр 9, 2026
Археологическая находка: каменная гробница и скелет в древнем сооружении.

Исследование древнего индивида из Переславля-Залесского указало на его генетически смешанное происхождение

саркофаг V и погребение: А – вид с востока; Б – саркофаг V после снятия погребения и поздней плиты, вид сверху. © ИОГен РАН Археогенетическое исследование погребения из саркофага XIV-XV века в Спасо-Преображенском соборе в Переславле-Залесском показало,…

Апр 9, 2026
Автоматизация программирования на Python: конвейеры, графики и код.

Создание рабочего процесса на Python, который выявляет ошибки до запуска в производство.

Использование современных инструментов для выявления дефектов на более ранних этапах жизненного цикла программного обеспечения. Делиться Python — один из тех языков, который позволяет почувствовать себя продуктивным практически мгновенно. В этом во многом и заключается его популярность. Переход…

Апр 9, 2026
Два человека пожимают руки на фоне синего логотипа компании.

Intel присоединяется к проекту Илона Маска по производству чипов Terafab.

Вкратце Источник изображения: Intel (откроется в новом окне) Компания Intel присоединится к SpaceX и Tesla в стремлении построить новый завод по производству полупроводников в США, в штате Техас, хотя масштабы ее вклада пока неясны. «Наша способность проектировать,…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых