Мозаика из пиксельных видеоигр, разнообразные уровни с разными препятствиями.

Более эффективный метод планирования сложных визуальных задач.

Новая гибридная система может помочь роботам ориентироваться в меняющейся среде или повысить эффективность работы многороботных сборочных бригад. Несколько простых двухмерных видеоигр, представляющих собой лабиринты с препятствиями и призами. Справа на игровом поле спрятаны ловушки. Новая система на основе искусственного интеллекта генерирует планы для долгосрочных, сложных задач примерно в два раза лучше, чем некоторые существующие методы. Исследователи оценили свою систему, проверив, насколько хорошо она может создавать планы для достижения целей в шести двумерных сетчатых мирах, подобных показанным здесь. Изображение: Предоставлено исследователями.

Исследователи из Массачусетского технологического института разработали генеративный подход на основе искусственного интеллекта для планирования долгосрочных визуальных задач, таких как навигация роботов, который примерно вдвое эффективнее некоторых существующих методов.

Их метод использует специализированную модель визуально-языкового восприятия для распознавания сценария на изображении и моделирования действий, необходимых для достижения цели. Затем вторая модель переводит эти симуляции в стандартный язык программирования для задач планирования и уточняет решение.

В итоге система автоматически генерирует набор файлов, которые можно передать в классическое программное обеспечение для планирования, которое вычисляет план достижения цели. Эта двухэтапная система генерировала планы со средней вероятностью успеха около 70 процентов, превосходя лучшие базовые методы, которые могли достичь лишь около 30 процентов.

Важно отметить, что система способна решать новые задачи, с которыми она ранее не сталкивалась, что делает ее хорошо подходящей для реальных условий, где ситуация может измениться в любой момент.

«Наша система сочетает в себе преимущества моделей обработки изображений и языка, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя», — говорит Илун Хао, аспирант кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института и ведущий автор статьи в открытом доступе, посвященной этой методике. «Она может взять одно изображение, обработать его с помощью моделирования, а затем разработать надежный долгосрочный план, который может быть полезен во многих реальных приложениях».

Вместе с ней над статьей работали Йонгчао Чен, аспирант Лаборатории информационных и управленческих систем (LIDS) Массачусетского технологического института; Чучу Фан, доцент кафедры аэрокосмической техники и главный исследователь LIDS; и Ян Чжан, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson. Статья будет представлена на Международной конференции по обучению представлениям.

Решение задач, требующих визуального восприятия

В течение последних нескольких лет Фан и ее коллеги изучали использование генеративных моделей искусственного интеллекта для выполнения сложных рассуждений и планирования, часто применяя большие языковые модели (LLM) для обработки текстовых входных данных.

Многие реальные задачи планирования, такие как роботизированная сборка и автономное вождение, имеют визуальные входные данные, с которыми LLM (Low Language Model) не может справиться самостоятельно. Исследователи стремились расширить область применения на визуальную составляющую, используя модели визуально-языкового анализа (VLM) — мощные системы искусственного интеллекта, способные обрабатывать изображения и текст.

Однако виртуальные модели ландшафта (VLM) с трудом понимают пространственные взаимосвязи между объектами в сцене и часто не могут корректно рассуждать на протяжении многих шагов. Это затрудняет использование VLM для долгосрочного планирования.

С другой стороны, ученые разработали надежные, формальные системы планирования, способные генерировать эффективные долгосрочные планы для сложных ситуаций. Однако эти программные системы не могут обрабатывать визуальные данные и требуют экспертных знаний для кодирования проблемы на языке, понятном решателю.

Фан и ее команда разработали автоматизированную систему планирования, которая объединяет лучшие стороны обоих методов. Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные VLM-модели, которые работают вместе, чтобы преобразовывать задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования.

Сначала исследователи тщательно обучили небольшую модель, которую они назвали SimVLM, чтобы она специализировалась на описании сценария на изображении с использованием естественного языка и моделировании последовательности действий в этом сценарии. Затем гораздо более крупная модель, которую они назвали GenVLM, использует описание из SimVLM для генерации набора исходных файлов на формальном языке планирования, известном как язык определения предметной области планирования (PDDL).

Файлы готовы к передаче в классический решатель PDDL, который вычисляет пошаговый план решения задачи. GenVLM сравнивает результаты решателя с результатами симулятора и итеративно уточняет файлы PDDL.

«Генератор и симулятор работают вместе, чтобы достичь одного и того же результата — имитации действия, которая позволяет реализовать поставленную цель», — говорит Хао.

Поскольку GenVLM — это крупная генеративная модель искусственного интеллекта, в процессе обучения она просмотрела множество примеров PDDL-файлов и научилась тому, как этот формальный язык может решать широкий спектр задач. Эти знания позволяют модели генерировать точные PDDL-файлы.

Гибкий подход

VLMFP генерирует два отдельных PDDL-файла. Первый — это файл предметной области, определяющий среду, допустимые действия и правила предметной области. Он также создает файл задачи, определяющий начальные состояния и цель конкретной решаемой задачи.

«Одно из преимуществ PDDL заключается в том, что файл домена одинаков для всех экземпляров в данной среде. Это позволяет нашей платформе хорошо обобщать данные на ранее неизвестные экземпляры в рамках одного домена», — объясняет Хао.

Для обеспечения эффективной обобщающей способности системы исследователям необходимо было тщательно разработать достаточное количество обучающих данных для SimVLM, чтобы модель научилась понимать проблему и цель, не запоминая шаблоны в сценарии. При тестировании SimVLM успешно описывала сценарий, моделировала действия и определяла, была ли достигнута цель, примерно в 85 процентах экспериментов.

В целом, разработанная система VLMFP показала успешность около 60 процентов в шести задачах 2D-планирования и более 80 процентов в двух задачах 3D-планирования, включая взаимодействие нескольких роботов и роботизированную сборку. Она также сгенерировала корректные планы для более чем 50 процентов сценариев, которые ранее не встречались, значительно превзойдя базовые методы.

«Наша система способна к обобщению при изменении правил в различных ситуациях. Это обеспечивает ей гибкость в решении многих типов задач планирования на основе визуальных данных», — добавляет Фан.

В будущем исследователи планируют наделить VLMFP способностью обрабатывать более сложные сценарии и изучить методы выявления и смягчения галлюцинаций, вызываемых VLM.

«В долгосрочной перспективе генеративные модели ИИ могут выступать в роли агентов и использовать подходящие инструменты для решения гораздо более сложных задач. Но что значит иметь подходящие инструменты, и как мы можем их интегрировать? До полного решения еще далеко, но внедрение визуального планирования является важной частью этой головоломки», — говорит Фан.

Данная работа частично финансировалась лабораторией искусственного интеллекта MIT-IBM Watson.

Источник: news.mit.edu

✅ Найденные теги: Более, Визуальные, Задачи, МЕТОД, новости, Планирование

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Два человека пожимают руки на фоне синего логотипа компании.
Схематичное изображение человеческого мозга на фоне компьютерных технологий.
Блинчики с сахарной пудрой и черникой на серой тарелке, десерт на завтрак.
Изображение ДНК и мозга на цветном фоне, символизирующее генетические исследования.
Компания Route 92 Medical привлекла 50 миллионов долларов для поддержки своей стратегии роста.
Интерфейс приложения для общения на экране смартфонов.
Коробчатые диаграммы данных для субъектов 1-4, сравнение значений.
От складывания коробок до ремонта пылесосов, роботизированная модель GEN-1 демонстрирует 99% надежность.
Ноутбук и смартфон с интерфейсом ChatGPT на фиолетовом фоне.
Image Not Found
Два человека пожимают руки на фоне синего логотипа компании.

Intel присоединяется к проекту Илона Маска по производству чипов Terafab.

Вкратце Источник изображения: Intel (откроется в новом окне) Компания Intel присоединится к SpaceX и Tesla в стремлении построить новый завод по производству полупроводников в США, в штате Техас, хотя масштабы ее вклада пока неясны. «Наша способность проектировать,…

Апр 8, 2026
Схематичное изображение человеческого мозга на фоне компьютерных технологий.

Как обрабатывать классические данные в квантовых моделях

Рабочие процессы и методы кодирования в квантовом машинном обучении Делиться Изображение предоставлено Гердом Альтманном с сайта Pixabay. В последние годы квантовые вычисления привлекают все большее внимание исследователей, бизнеса и общественности. Слово «квантовый» стало модным термином, который многие…

Апр 8, 2026
Блинчики с сахарной пудрой и черникой на серой тарелке, десерт на завтрак.

Физики разработали формулу, определяющую, сколько раз можно сложить блинчик.

При складывании гибкого материала, такого как блин или лепешка, его поведение зависит от противостояния силы тяжести и упругости. Существует предел тому, сколько раз можно сложить блин. ResonX /Жасмин Шёнцарт Если аккуратно сложить диск из какого-нибудь гибкого и,…

Апр 8, 2026
Изображение ДНК и мозга на цветном фоне, символизирующее генетические исследования.

Генная мутация может застревать в мозге пациентов с шизофренией в искаженной реальности.

Генная мутация, связанная с шизофренией, может нарушать способность мозга адаптироваться к новой информации, что приводит к ригидному, устаревшему мышлению. Изображение: Shutterstock Одной из распространенных особенностей шизофрении является трудность в использовании новой информации для понимания окружающего мира. Эта…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых