VLM учат в симуляторах — дешевле, быстрее и без боли…
VLM учат в симуляторах — дешевле, быстрее и без боли с реальными данными
Исследователи из лабы фундаментальных исследований ИИ Т-Банка представили VL-DAC — метод, который обучает визуально-языковые модели новым действиям не на дорогих реальных данных, а в симуляторах.
Смысл в том, что модель сначала тренируется в виртуальных средах: учится понимать интерфейсы, изображения, объекты и пошагово двигаться к цели. Потом эти навыки переносятся на реальные задачи — уже без классического «давайте соберём ещё миллион примеров руками».
В обучении использовали несколько симуляторов под разные навыки:
— навигация
— взаимодействие с объектами
— работа с веб-интерфейсами
— оценка, насколько действие приближает к цели
После такого обучения Qwen2-VL-7B стала более чем на 50% лучше справляться с интерактивными задачами. Плюс: пространственная ориентация выросла на 5%, веб-навигация — на 2%.
Метод представили на конференции AAMAS. Потенциальные применения — робототехника, банкинг, игры, логистика и всё, где ИИ должен не просто «посмотреть на картинку», а выполнить нормальную цепочку действий.


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.