Мозаика из пиксельных видеоигр, разнообразные уровни с разными препятствиями.

Более эффективный метод планирования сложных визуальных задач.

Новая гибридная система может помочь роботам ориентироваться в меняющейся среде или повысить эффективность работы многороботных сборочных бригад. Несколько простых двухмерных видеоигр, представляющих собой лабиринты с препятствиями и призами. Справа на игровом поле спрятаны ловушки. Новая система на основе искусственного интеллекта генерирует планы для долгосрочных, сложных задач примерно в два раза лучше, чем некоторые существующие методы. Исследователи оценили свою систему, проверив, насколько хорошо она может создавать планы для достижения целей в шести двумерных сетчатых мирах, подобных показанным здесь. Изображение: Предоставлено исследователями.

Исследователи из Массачусетского технологического института разработали генеративный подход на основе искусственного интеллекта для планирования долгосрочных визуальных задач, таких как навигация роботов, который примерно вдвое эффективнее некоторых существующих методов.

Их метод использует специализированную модель визуально-языкового восприятия для распознавания сценария на изображении и моделирования действий, необходимых для достижения цели. Затем вторая модель переводит эти симуляции в стандартный язык программирования для задач планирования и уточняет решение.

В итоге система автоматически генерирует набор файлов, которые можно передать в классическое программное обеспечение для планирования, которое вычисляет план достижения цели. Эта двухэтапная система генерировала планы со средней вероятностью успеха около 70 процентов, превосходя лучшие базовые методы, которые могли достичь лишь около 30 процентов.

Важно отметить, что система способна решать новые задачи, с которыми она ранее не сталкивалась, что делает ее хорошо подходящей для реальных условий, где ситуация может измениться в любой момент.

«Наша система сочетает в себе преимущества моделей обработки изображений и языка, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя», — говорит Илун Хао, аспирант кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института и ведущий автор статьи в открытом доступе, посвященной этой методике. «Она может взять одно изображение, обработать его с помощью моделирования, а затем разработать надежный долгосрочный план, который может быть полезен во многих реальных приложениях».

Вместе с ней над статьей работали Йонгчао Чен, аспирант Лаборатории информационных и управленческих систем (LIDS) Массачусетского технологического института; Чучу Фан, доцент кафедры аэрокосмической техники и главный исследователь LIDS; и Ян Чжан, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson. Статья будет представлена на Международной конференции по обучению представлениям.

Решение задач, требующих визуального восприятия

В течение последних нескольких лет Фан и ее коллеги изучали использование генеративных моделей искусственного интеллекта для выполнения сложных рассуждений и планирования, часто применяя большие языковые модели (LLM) для обработки текстовых входных данных.

Многие реальные задачи планирования, такие как роботизированная сборка и автономное вождение, имеют визуальные входные данные, с которыми LLM (Low Language Model) не может справиться самостоятельно. Исследователи стремились расширить область применения на визуальную составляющую, используя модели визуально-языкового анализа (VLM) — мощные системы искусственного интеллекта, способные обрабатывать изображения и текст.

Однако виртуальные модели ландшафта (VLM) с трудом понимают пространственные взаимосвязи между объектами в сцене и часто не могут корректно рассуждать на протяжении многих шагов. Это затрудняет использование VLM для долгосрочного планирования.

С другой стороны, ученые разработали надежные, формальные системы планирования, способные генерировать эффективные долгосрочные планы для сложных ситуаций. Однако эти программные системы не могут обрабатывать визуальные данные и требуют экспертных знаний для кодирования проблемы на языке, понятном решателю.

Фан и ее команда разработали автоматизированную систему планирования, которая объединяет лучшие стороны обоих методов. Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные VLM-модели, которые работают вместе, чтобы преобразовывать задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования.

Сначала исследователи тщательно обучили небольшую модель, которую они назвали SimVLM, чтобы она специализировалась на описании сценария на изображении с использованием естественного языка и моделировании последовательности действий в этом сценарии. Затем гораздо более крупная модель, которую они назвали GenVLM, использует описание из SimVLM для генерации набора исходных файлов на формальном языке планирования, известном как язык определения предметной области планирования (PDDL).

Файлы готовы к передаче в классический решатель PDDL, который вычисляет пошаговый план решения задачи. GenVLM сравнивает результаты решателя с результатами симулятора и итеративно уточняет файлы PDDL.

«Генератор и симулятор работают вместе, чтобы достичь одного и того же результата — имитации действия, которая позволяет реализовать поставленную цель», — говорит Хао.

Поскольку GenVLM — это крупная генеративная модель искусственного интеллекта, в процессе обучения она просмотрела множество примеров PDDL-файлов и научилась тому, как этот формальный язык может решать широкий спектр задач. Эти знания позволяют модели генерировать точные PDDL-файлы.

Гибкий подход

VLMFP генерирует два отдельных PDDL-файла. Первый — это файл предметной области, определяющий среду, допустимые действия и правила предметной области. Он также создает файл задачи, определяющий начальные состояния и цель конкретной решаемой задачи.

«Одно из преимуществ PDDL заключается в том, что файл домена одинаков для всех экземпляров в данной среде. Это позволяет нашей платформе хорошо обобщать данные на ранее неизвестные экземпляры в рамках одного домена», — объясняет Хао.

Для обеспечения эффективной обобщающей способности системы исследователям необходимо было тщательно разработать достаточное количество обучающих данных для SimVLM, чтобы модель научилась понимать проблему и цель, не запоминая шаблоны в сценарии. При тестировании SimVLM успешно описывала сценарий, моделировала действия и определяла, была ли достигнута цель, примерно в 85 процентах экспериментов.

В целом, разработанная система VLMFP показала успешность около 60 процентов в шести задачах 2D-планирования и более 80 процентов в двух задачах 3D-планирования, включая взаимодействие нескольких роботов и роботизированную сборку. Она также сгенерировала корректные планы для более чем 50 процентов сценариев, которые ранее не встречались, значительно превзойдя базовые методы.

«Наша система способна к обобщению при изменении правил в различных ситуациях. Это обеспечивает ей гибкость в решении многих типов задач планирования на основе визуальных данных», — добавляет Фан.

В будущем исследователи планируют наделить VLMFP способностью обрабатывать более сложные сценарии и изучить методы выявления и смягчения галлюцинаций, вызываемых VLM.

«В долгосрочной перспективе генеративные модели ИИ могут выступать в роли агентов и использовать подходящие инструменты для решения гораздо более сложных задач. Но что значит иметь подходящие инструменты, и как мы можем их интегрировать? До полного решения еще далеко, но внедрение визуального планирования является важной частью этой головоломки», — говорит Фан.

Данная работа частично финансировалась лабораторией искусственного интеллекта MIT-IBM Watson.

Источник: news.mit.edu

✅ Найденные теги: Более, Визуальные, Задачи, МЕТОД, новости, Планирование

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Золотая геометрическая иллюстрация со звездами и линиями на темном фоне.
Студенты работают за ноутбуком, обсудив проект в современном пространстве.
Диаграмма сравнивает потоки беседы Baseline AI и Wayfinding AI.
AI-RAN меняет представление об интеллектуальных возможностях и автономности на периферии корпоративных сетей.
Измерение талии человека с наложенной структурой молекулы лекарства для похудения.
Мужчина в очках и с короткой стрижкой сидит рядом с окном и наслаждается солнечным светом.
Карта памяти SanDisk Extreme PRO 2TB на столе перед черным кейсом.
Космонавт работает на борту космической станции, окружённый оборудованием и проводами.
Древний океан с причудливыми существами эдиакарского периода на дне.
Image Not Found
Золотая геометрическая иллюстрация со звездами и линиями на темном фоне.

3 вопроса: О будущем искусственного интеллекта и математических и физических наук

Профессор Джесси Талер описывает концепцию двустороннего моста между искусственным интеллектом и математическими и физическими науками — моста, который обещает способствовать развитию обеих областей. Ученые в области математических и физических наук разрабатывают стратегии того, как искусственный интеллект может…

Апр 9, 2026
Студенты работают за ноутбуком, обсудив проект в современном пространстве.

В новом курсе Массачусетского технологического института антропология используется для совершенствования чат-ботов.

Студенты факультета компьютерных наук Массачусетского технологического института разрабатывают чат-боты с искусственным интеллектом, чтобы помочь молодым пользователям стать более общительными и уверенными в себе. Старшекурсник Мохаммед Ихтишам (второй справа) объясняет работу проекта Reflecto профессору компьютерных наук Массачусетского технологического…

Апр 9, 2026
Диаграмма сравнивает потоки беседы Baseline AI и Wayfinding AI.

На пути к более качественным беседам о здоровье: результаты исследования «навигационного» ИИ-агента на основе Gemini.

Мы делимся результатами исследований, проведенных с помощью нового агента искусственного интеллекта, который помогает людям находить более качественную информацию о здоровье благодаря проактивным диалоговым подсказкам, пониманию целей и персонализированным беседам. Возможность находить понятную, актуальную и персонализированную информацию о…

Апр 9, 2026
AI-RAN меняет представление об интеллектуальных возможностях и автономности на периферии корпоративных сетей.

AI-RAN меняет представление об интеллектуальных возможностях и автономности на периферии корпоративных сетей.

Персонал VB Представлено компанией Booz Allen. AI-RAN, или сети радиосвязи с искусственным интеллектом, — это переосмысление возможностей беспроводной инфраструктуры. Вместо того чтобы рассматривать сеть как пассивный канал передачи данных, AI-RAN превращает её в активный вычислительный уровень. Это…

Апр 9, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых