VL-DAC — обучаем VLM быстрее и дешевле И говорим за…

03.06.2026

VL-DAC — обучаем VLM быстрее и дешевле

И говорим за это спасибо лабе фундаментальных исследований Т-Банка. Её исследователи представили новый метод дообучения визуально-языковых моделей на AAMAS — одной из главных конференций по автономным агентам и мультиагентным системам уровня А.

Главное открытие: новые навыки для VLM можно получать не на реальных данных, а на синтетических средах — и переносить на внешние задачи.

Сейчас модели сильны в распознавании изображений и интерфейсов, но плохо справляются с задачами, где нужно действовать последовательно. Например, открыть нужный раздел сайта, применить фильтр, выбрать товар или построить маршрут. Для такого обучения обычно нужны реальные среды и огромное количество данных. Но исследователи решили пойти другим путем — использовать набор симуляторов, каждый из которых тренирует отдельный навык.

Так появился метод VL-DAC. Один симулятор учит модель навигации, другой — взаимодействию с объектами, третий — работе с веб-интерфейсами. В итоге модель учится не просто “видеть”, а понимать, какое действие приближает её к цели. После обучения Qwen2-VL-7B стала более чем на 50% лучше справляться с интерактивными задачами, а также улучшила навыки пространственной ориентации и веб-навигации.

Главный плюс подхода — стоимость и скорость. Вместо дорогого сбора реальных данных модель можно быстро прогонять через тысячи синтетических сценариев, а затем переносить навыки уже в прикладные задачи.

VL-DAC также не нуждается в больших объёмах памяти для хранения информации о “полезности” шагов и не требует постоянной ручной донастройки коэффициентов. Прогон на 50 тысяч шагов среды для Qwen2-VL-7B занял около 20 GPU-часов на одной H100-80GB.

#полезное

Оцените материал:

Читайте также

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

VL-DAC — обучаем VLM быстрее и дешевле И говорим за…

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Похожие записи

Похожие записи

📊 Gemini теперь рисует живые схемы: кликай и изучай! Google…

Xiaomi выпустили MiMo Code — конкурента Claude, который обходит агента…

🎮 Google Genie 3: генерирует игровые миры по описанию Google…

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI