Мозаика из пиксельных видеоигр, разнообразные уровни с разными препятствиями.

Более эффективный метод планирования сложных визуальных задач.

Новая гибридная система может помочь роботам ориентироваться в меняющейся среде или повысить эффективность работы многороботных сборочных бригад. Несколько простых двухмерных видеоигр, представляющих собой лабиринты с препятствиями и призами. Справа на игровом поле спрятаны ловушки. Новая система на основе искусственного интеллекта генерирует планы для долгосрочных, сложных задач примерно в два раза лучше, чем некоторые существующие методы. Исследователи оценили свою систему, проверив, насколько хорошо она может создавать планы для достижения целей в шести двумерных сетчатых мирах, подобных показанным здесь. Изображение: Предоставлено исследователями.

Исследователи из Массачусетского технологического института разработали генеративный подход на основе искусственного интеллекта для планирования долгосрочных визуальных задач, таких как навигация роботов, который примерно вдвое эффективнее некоторых существующих методов.

Их метод использует специализированную модель визуально-языкового восприятия для распознавания сценария на изображении и моделирования действий, необходимых для достижения цели. Затем вторая модель переводит эти симуляции в стандартный язык программирования для задач планирования и уточняет решение.

В итоге система автоматически генерирует набор файлов, которые можно передать в классическое программное обеспечение для планирования, которое вычисляет план достижения цели. Эта двухэтапная система генерировала планы со средней вероятностью успеха около 70 процентов, превосходя лучшие базовые методы, которые могли достичь лишь около 30 процентов.

Важно отметить, что система способна решать новые задачи, с которыми она ранее не сталкивалась, что делает ее хорошо подходящей для реальных условий, где ситуация может измениться в любой момент.

«Наша система сочетает в себе преимущества моделей обработки изображений и языка, такие как их способность понимать изображения, с мощными возможностями планирования формального решателя», — говорит Илун Хао, аспирант кафедры аэронавтики и космонавтики (AeroAstro) Массачусетского технологического института и ведущий автор статьи в открытом доступе, посвященной этой методике. «Она может взять одно изображение, обработать его с помощью моделирования, а затем разработать надежный долгосрочный план, который может быть полезен во многих реальных приложениях».

Вместе с ней над статьей работали Йонгчао Чен, аспирант Лаборатории информационных и управленческих систем (LIDS) Массачусетского технологического института; Чучу Фан, доцент кафедры аэрокосмической техники и главный исследователь LIDS; и Ян Чжан, научный сотрудник лаборатории искусственного интеллекта MIT-IBM Watson. Статья будет представлена на Международной конференции по обучению представлениям.

Решение задач, требующих визуального восприятия

В течение последних нескольких лет Фан и ее коллеги изучали использование генеративных моделей искусственного интеллекта для выполнения сложных рассуждений и планирования, часто применяя большие языковые модели (LLM) для обработки текстовых входных данных.

Многие реальные задачи планирования, такие как роботизированная сборка и автономное вождение, имеют визуальные входные данные, с которыми LLM (Low Language Model) не может справиться самостоятельно. Исследователи стремились расширить область применения на визуальную составляющую, используя модели визуально-языкового анализа (VLM) — мощные системы искусственного интеллекта, способные обрабатывать изображения и текст.

Однако виртуальные модели ландшафта (VLM) с трудом понимают пространственные взаимосвязи между объектами в сцене и часто не могут корректно рассуждать на протяжении многих шагов. Это затрудняет использование VLM для долгосрочного планирования.

С другой стороны, ученые разработали надежные, формальные системы планирования, способные генерировать эффективные долгосрочные планы для сложных ситуаций. Однако эти программные системы не могут обрабатывать визуальные данные и требуют экспертных знаний для кодирования проблемы на языке, понятном решателю.

Фан и ее команда разработали автоматизированную систему планирования, которая объединяет лучшие стороны обоих методов. Система, получившая название VLM-guided formal planning (VLMFP), использует две специализированные VLM-модели, которые работают вместе, чтобы преобразовывать задачи визуального планирования в готовые к использованию файлы для программного обеспечения формального планирования.

Сначала исследователи тщательно обучили небольшую модель, которую они назвали SimVLM, чтобы она специализировалась на описании сценария на изображении с использованием естественного языка и моделировании последовательности действий в этом сценарии. Затем гораздо более крупная модель, которую они назвали GenVLM, использует описание из SimVLM для генерации набора исходных файлов на формальном языке планирования, известном как язык определения предметной области планирования (PDDL).

Файлы готовы к передаче в классический решатель PDDL, который вычисляет пошаговый план решения задачи. GenVLM сравнивает результаты решателя с результатами симулятора и итеративно уточняет файлы PDDL.

«Генератор и симулятор работают вместе, чтобы достичь одного и того же результата — имитации действия, которая позволяет реализовать поставленную цель», — говорит Хао.

Поскольку GenVLM — это крупная генеративная модель искусственного интеллекта, в процессе обучения она просмотрела множество примеров PDDL-файлов и научилась тому, как этот формальный язык может решать широкий спектр задач. Эти знания позволяют модели генерировать точные PDDL-файлы.

Гибкий подход

VLMFP генерирует два отдельных PDDL-файла. Первый — это файл предметной области, определяющий среду, допустимые действия и правила предметной области. Он также создает файл задачи, определяющий начальные состояния и цель конкретной решаемой задачи.

«Одно из преимуществ PDDL заключается в том, что файл домена одинаков для всех экземпляров в данной среде. Это позволяет нашей платформе хорошо обобщать данные на ранее неизвестные экземпляры в рамках одного домена», — объясняет Хао.

Для обеспечения эффективной обобщающей способности системы исследователям необходимо было тщательно разработать достаточное количество обучающих данных для SimVLM, чтобы модель научилась понимать проблему и цель, не запоминая шаблоны в сценарии. При тестировании SimVLM успешно описывала сценарий, моделировала действия и определяла, была ли достигнута цель, примерно в 85 процентах экспериментов.

В целом, разработанная система VLMFP показала успешность около 60 процентов в шести задачах 2D-планирования и более 80 процентов в двух задачах 3D-планирования, включая взаимодействие нескольких роботов и роботизированную сборку. Она также сгенерировала корректные планы для более чем 50 процентов сценариев, которые ранее не встречались, значительно превзойдя базовые методы.

«Наша система способна к обобщению при изменении правил в различных ситуациях. Это обеспечивает ей гибкость в решении многих типов задач планирования на основе визуальных данных», — добавляет Фан.

В будущем исследователи планируют наделить VLMFP способностью обрабатывать более сложные сценарии и изучить методы выявления и смягчения галлюцинаций, вызываемых VLM.

«В долгосрочной перспективе генеративные модели ИИ могут выступать в роли агентов и использовать подходящие инструменты для решения гораздо более сложных задач. Но что значит иметь подходящие инструменты, и как мы можем их интегрировать? До полного решения еще далеко, но внедрение визуального планирования является важной частью этой головоломки», — говорит Фан.

Данная работа частично финансировалась лабораторией искусственного интеллекта MIT-IBM Watson.

Источник: news.mit.edu

✅ Найденные теги: Более, Визуальные, Задачи, МЕТОД, новости, Планирование

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Цифровой отпечаток пальца на технологической плате; концепция безопасности данных.
Диаграмма языковой эволюции, показывающая связи между разными языковыми семьями.
Компания Boehringer передала 50 миллионов долларов и права на продажу цифровой терапевтической технологии Click — Medical Device Network
ideipro logotyp
STAT+: Все согласны с тем, что ИИ-помощники в медицинской практике увеличивают расходы на здравоохранение. Но никто не может прийти к единому мнению о том, что с этим делать.
Диаграмма назначения капецитабина и паклитаксела с данными об отказах в лечении.
Графики и диаграммы данных, отображающие различные кластеры и показатели анализа.
Клинические исследования показали, что редактирование генов эффективно и при β-талассемии.
Иконки приложений ChatGPT, OpenClaw и Claude на экране смартфона.
Image Not Found
Цифровой отпечаток пальца на технологической плате; концепция безопасности данных.

Учетные данные безопасности были случайно скомпрометированы на тысячах веб-сайтов.

Исследователи выявили почти 10 000 веб-сайтов, где можно было найти ключи API, что позволило злоумышленникам получить доступ к конфиденциальной информации. Утечка ключей могла позволить злоумышленникам получить контроль над цифровой инфраструктурой компании. Vertigo3d/Getty Images Критически важные учетные данные…

Апр 11, 2026
Диаграмма языковой эволюции, показывающая связи между разными языковыми семьями.

Исследование 1700 языков выявило удивительные скрытые закономерности.

Эволюция универсального порядка слов на глобальном языковом древе. В нашем анализе универсального порядка слов¹ «С частотой, значительно превышающей случайную, языки с нормальным порядком подлежащее-дополнение-глагол являются постпозиционными», отсутствие или наличие двух признаков определяет «состояние»: состояние 11 (красный) —…

Апр 11, 2026
Компания Boehringer передала 50 миллионов долларов и права на продажу цифровой терапевтической технологии Click — Medical Device Network

Компания Boehringer передала 50 миллионов долларов и права на продажу цифровой терапевтической технологии Click — Medical Device Network

В результате этой корректировки сделки компания Click возьмет на себя ответственность за маркетинг и коммерциализацию CT-155. Фото: jiris / Shutterstock.com Компании Boehringer Ingelheim и Click Therapeutics изменили динамику своего долгосрочного сотрудничества, в рамках которого Click возьмет на…

Апр 11, 2026
ideipro logotyp

Впервые терапия с использованием CAR-T-клеток позволила добиться ремиссии трех аутоиммунных заболеваний у одного пациента.

Терапия с использованием CAR-T-клеток успешно вылечила не одно, не два, а сразу три различных аутоиммунных заболевания у одного пациента, что является еще одним доказательством перспективности этого метода в данной области заболеваний, поскольку, вероятно, приближается быстрое получение первого…

Апр 11, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых