Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

MARL-GPT: на пути к созданию универсальной модели для многоагентных сред

0a872be415e57163939cf092a1b68deb

Привет, Хабр!

Задача многоагентного обучения с подкреплением (MARL) возникает всякий раз, когда несколько агентов взаимодействуют в одной среде, чтобы совместными усилиями решить общую задачу. Например, это могут быть футболисты, юниты в StarCraft или просто множество роботов, которым нужно дойти до своих целей в одном лабиринте. Очень часто агенты внутри сред не могут общаться и полагаются только на свои наблюдения. А вот что именно агенты наблюдают и как именно могут действовать — зависит и от среды, и даже от конкретного задания внутри неё.

В существующих работах по MARL модель, как правило, обучается под одну среду, и чтобы обучить её на новой среде, архитектуру нужно адаптировать. Мы же поставили перед собой грандиозную цель — создать единую модель (foundation model), которая сможет действовать в разных средах, переносить кооперативные стратегии между ними и легко адаптироваться к новым неизвестным заданиям. Но до этого ещё далеко, и начать нужно с более простого шага, а именно создать модель с единой архитектурой, которая не требует переделки под каждую среду и может обучаться на нескольких средах одновременно.

С вами Мария Нестерова из команды «RL агенты» Лаборатории когнитивных систем искусственного интеллекта AIRI. Мы с коллегами создали метод MARL‑GPT — единую модель, которая обучается на датасетах из трёх разных сред. Центральная идея — обрабатывать наблюдение агента как последовательность и использовать для этого архитектуру трансформер. Модель мы впервые представили на воркшопе WoMAPF’26 (Workshop on Multi‑Agent Path Finding, AAAI 2026), а расширенная версия статьи прошла отбор на AAMAS 2026.

Ниже краткий рассказ о проблеме, как мы её решали и много гифок.

Читать далее

Источник: habr.com

✅ Найденные теги: GPT, Marl, MARL-GPT:, новости, Пути, Созданию, Универсальной

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: TurboQuant: переосмысление эффективности ИИ с помощью экстремального сжатия. Архив рубрики ~Лента новостей~: Что SVG-пеликаны говорят о способностях ИИ-моделей? Архив рубрики ~Лента новостей~: Тони Блэр — убежденный сторонник диагностики, но заблуждается в вопросах назначения лекарств: он не сможет решить проблемы Великобритании | Ларри Эллиотт Архив рубрики ~Лента новостей~: Ваше прошлое физически существует прямо сейчас. И вы заморожены там навсегда Архив рубрики ~Лента новостей~: Google вносит огромные изменения, которые могут уничтожить то, что осталось от журналистики Архив рубрики ~Лента новостей~: Как ChatGPT заменяет 5 платных сервисов для малого бизнеса Архив рубрики ~Лента новостей~: Вспышка Gemini 2.5 Flash-Lite теперь готова к использованию в крупномасштабном производстве. Архив рубрики ~Лента новостей~: NASA поручило Blue Origin доставить к южному полюсу Луны роверы для астронавтов. А компания Firefly Aerospace привезет на Луну прыгающие дроны