Сбер выложил в open-source модель для управления роботами
Опубликованы веса и код Green-VLA — модели класса Vision-Language-Action, предназначенной для управления роботами общего назначения.
Проект ранее стал лучшей статьёй недели на Hugging Face.
Техническая основа:
— Архитектура построена на Qwen3-VL-4B
— Используется трансформер с flow-matching, который предсказывает действия робота в реальном времени
— Обучение прошло пять этапов: от мультимодальных веб-данных до демонстраций с реальных роботов
— Унификация робототехнических датасетов улучшает обобщение между разными платформами
По результатам тестов модель показывает сильные результаты на робототехнических бенчмарках Fractal и Bridge.
Что открыли разработчики:
— код обучения и инференса
— предобученные веса модели
Базовую модель можно дообучить под конкретную платформу и использовать для прикладных задач — например, в логистике, на складах или производстве.

























