Мозаика из пиксельных видеоигр, разнообразные уровни с разными препятствиями.

Более эффективный метод планирования сложных визуальных задач.

Новая гибридная система может помочь роботам ориентироваться в меняющейся среде или повысить эффективность работы многороботных сборочных бригад. Несколько простых двухмерных видеоигр, представляющих собой лабиринты с препятствиями и призами. Справа на игровом поле спрятаны ловушки. Новая система на основе искусственного интеллекта генерирует планы для долгосрочных, сложных задач примерно в два раза лучше, чем некоторые существующие методы. Исследователи оценили свою систему, проверив, насколько хорошо она может создавать планы для достижения целей в шести двумерных сетчатых мирах, подобных показанным здесь. Изображение: Предоставлено исследователями.

Исследователи из Массачусетского технологического института разработали генеративный подход на основе искусственного интеллекта для планирования долгосрочных визуальных задач, таких как навигация роботов, который примерно вдвое эффективнее некоторых существующих методов.

Их метод использует специализированную модель визуально-языкового восприятия для распознавания сценария на изображении и моделирования действий, необходимых для достижения цели. Затем вторая модель переводит эти симуляции в стандартный язык программирования для задач планирования и уточняет решение.

В итоге система автоматически генерирует набор файлов, которые можно передать в классическое программное обеспечение для планирования, которое вычисляет план достижения цели. Эта двухэтапная система генерировала планы со средней вероятностью успеха около 70 процентов, превосходя лучшие базовые методы, которые могли достичь лишь около 30 процентов.

Важно отметить, что система способна решать новые задачи, с которыми она ранее не сталкивалась, что делает ее хорошо подходящей для реальных условий, где ситуация может измениться в любой момент.

«Наша система сочетает в себе преимущества моделей обработки изображений и языка, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя», — говорит Илун Хао, аспирант кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института и ведущий автор статьи в открытом доступе, посвященной этой методике. «Она может взять одно изображение, обработать его с помощью моделирования, а затем разработать надежный долгосрочный план, который может быть полезен во многих реальных приложениях».

Вместе с ней над статьей работали Йонгчао Чен, аспирант Лаборатории информационных и управленческих систем (LIDS) Массачусетского технологического института; Чучу Фан, доцент кафедры аэрокосмической техники и главный исследователь LIDS; и Ян Чжан, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson. Статья будет представлена на Международной конференции по обучению представлениям.

Решение задач, требующих визуального восприятия

В течение последних нескольких лет Фан и ее коллеги изучали использование генеративных моделей искусственного интеллекта для выполнения сложных рассуждений и планирования, часто применяя большие языковые модели (LLM) для обработки текстовых входных данных.

Многие реальные задачи планирования, такие как роботизированная сборка и автономное вождение, имеют визуальные входные данные, с которыми LLM (Low Language Model) не может справиться самостоятельно. Исследователи стремились расширить область применения на визуальную составляющую, используя модели визуально-языкового анализа (VLM) — мощные системы искусственного интеллекта, способные обрабатывать изображения и текст.

Однако виртуальные модели ландшафта (VLM) с трудом понимают пространственные взаимосвязи между объектами в сцене и часто не могут корректно рассуждать на протяжении многих шагов. Это затрудняет использование VLM для долгосрочного планирования.

С другой стороны, ученые разработали надежные, формальные системы планирования, способные генерировать эффективные долгосрочные планы для сложных ситуаций. Однако эти программные системы не могут обрабатывать визуальные данные и требуют экспертных знаний для кодирования проблемы на языке, понятном решателю.

Фан и ее команда разработали автоматизированную систему планирования, которая объединяет лучшие стороны обоих методов. Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные VLM-модели, которые работают вместе, чтобы преобразовывать задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования.

Сначала исследователи тщательно обучили небольшую модель, которую они назвали SimVLM, чтобы она специализировалась на описании сценария на изображении с использованием естественного языка и моделировании последовательности действий в этом сценарии. Затем гораздо более крупная модель, которую они назвали GenVLM, использует описание из SimVLM для генерации набора исходных файлов на формальном языке планирования, известном как язык определения предметной области планирования (PDDL).

Файлы готовы к передаче в классический решатель PDDL, который вычисляет пошаговый план решения задачи. GenVLM сравнивает результаты решателя с результатами симулятора и итеративно уточняет файлы PDDL.

«Генератор и симулятор работают вместе, чтобы достичь одного и того же результата — имитации действия, которая позволяет реализовать поставленную цель», — говорит Хао.

Поскольку GenVLM — это крупная генеративная модель искусственного интеллекта, в процессе обучения она просмотрела множество примеров PDDL-файлов и научилась тому, как этот формальный язык может решать широкий спектр задач. Эти знания позволяют модели генерировать точные PDDL-файлы.

Гибкий подход

VLMFP генерирует два отдельных PDDL-файла. Первый — это файл предметной области, определяющий среду, допустимые действия и правила предметной области. Он также создает файл задачи, определяющий начальные состояния и цель конкретной решаемой задачи.

«Одно из преимуществ PDDL заключается в том, что файл домена одинаков для всех экземпляров в данной среде. Это позволяет нашей платформе хорошо обобщать данные на ранее неизвестные экземпляры в рамках одного домена», — объясняет Хао.

Для обеспечения эффективной обобщающей способности системы исследователям необходимо было тщательно разработать достаточное количество обучающих данных для SimVLM, чтобы модель научилась понимать проблему и цель, не запоминая шаблоны в сценарии. При тестировании SimVLM успешно описывала сценарий, моделировала действия и определяла, была ли достигнута цель, примерно в 85 процентах экспериментов.

В целом, разработанная система VLMFP показала успешность около 60 процентов в шести задачах 2D-планирования и более 80 процентов в двух задачах 3D-планирования, включая взаимодействие нескольких роботов и роботизированную сборку. Она также сгенерировала корректные планы для более чем 50 процентов сценариев, которые ранее не встречались, значительно превзойдя базовые методы.

«Наша система способна к обобщению при изменении правил в различных ситуациях. Это обеспечивает ей гибкость в решении многих типов задач планирования на основе визуальных данных», — добавляет Фан.

В будущем исследователи планируют наделить VLMFP способностью обрабатывать более сложные сценарии и изучить методы выявления и смягчения галлюцинаций, вызываемых VLM.

«В долгосрочной перспективе генеративные модели ИИ могут выступать в роли агентов и использовать подходящие инструменты для решения гораздо более сложных задач. Но что значит иметь подходящие инструменты, и как мы можем их интегрировать? До полного решения еще далеко, но внедрение визуального планирования является важной частью этой головоломки», — говорит Фан.

Данная работа частично финансировалась лабораторией искусственного интеллекта MIT-IBM Watson.

Источник: news.mit.edu

✅ Найденные теги: Более, Визуальные, Задачи, МЕТОД, новости, Планирование

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Древнее морское существо с панцирем, яркие синие и оранжевые оттенки, 3D-иллюстрация.
ideipro logotyp
Учёные в лаборатории обсуждают ДНК с роботом и графиком функций.
Графиковое изображение, минималистичная иконка анализа данных на белом фоне.
Йога на облаках, цифровая медитация, человек в позе лотоса с цифровым фоном.
Коллаж с людьми и природой, текст "Poke is for adventurers", кнопки "Get Started" и "View Recipes".
ideipro logotyp
ideipro logotyp
AI-агенты формируют процессы компаний. Иллюстрация на тему технологий и редизайна процессов.
Image Not Found
Древнее морское существо с панцирем, яркие синие и оранжевые оттенки, 3D-иллюстрация.

Этот крошечный коготь в окаменелости возрастом 500 миллионов лет переписал историю происхождения пауков.

Удивительно сложная анатомия кембрийского хелицерата Megachelicerax cousteaui. Изображение: художественная реконструкция Масато Хаттори (© Гарвардский университет). После долгого дня преподавания Руди Лерози-Обрил приступил к знакомой задаче: подготовке окаменелости членистоногого кембрийского периода к изучению. На первый взгляд, образец выглядел…

Апр 9, 2026
ideipro logotyp

CRO Fortrea запускает решение на основе искусственного интеллекта для повышения эффективности клинических испытаний.

Компания Fortrea расширяет свои возможности, внедряя комплекс технологий на основе искусственного интеллекта, предназначенных для автоматизации рабочих процессов, оптимизации контроля и повышения производительности для спонсоров клинических испытаний. В пресс-релизе от 7 апреля компания Fortrea из Северной Каролины заявила,…

Апр 9, 2026
Учёные в лаборатории обсуждают ДНК с роботом и графиком функций.

STAT+: OpenEvidence заключает соглашение с крупной системой здравоохранения.

Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Вы читаете веб-версию информационного бюллетеня STAT о технологиях в здравоохранении — нашего…

Апр 9, 2026
Графиковое изображение, минималистичная иконка анализа данных на белом фоне.

Генетическая регуляция, затрагивающая зародышевую и соматическую вариации Y-хромосомы, способствует развитию диабета 2 типа.

Абстрактный Наше понимание биологической роли Y-хромосомы остается ограниченным. В данном исследовании мы систематически анализируем герминальные Y-гаплогруппы и соматическую потерю Y-хромосомы (LOY) у 122 683 мужчин из Восточной Азии из японского BioBank и 181 472 мужчин из Европы…

Апр 9, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых