🪟 Команда из Google представила Unified Latents (UL) — фреймворк,…
🪟 Команда из Google представила Unified Latents (UL) — фреймворк, который объединяет кодировщик, diffusion prior и diffusion-декодер в единую систему с общей регуляризацией. Идея изящная: связать шум на выходе энкодера с минимальным уровнем шума в prior, чтобы получить простую цель обучения и жёсткую верхнюю границу на «битрейт» латентного пространства. Проще говоря, модель учится хранить в латентах ровно столько информации, сколько нужно — без раздутых представлений.
👆 На практике это даёт FID 1.4 на ImageNet-512 и FVD 1.3 на Kinetics-600 при меньших вычислительных затратах, чем у моделей, обученных на латентах Stable Diffusion. Важный сдвиг здесь не в очередном улучшении метрик, а в экономике обучения: меньше FLOPs — больше масштабируемость.


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.