Image

T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться

Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!

Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке

Представьте такую ситуацию: вы хотите, чтобы модель генерировала вашу кошечку узнаваемой и в самых разных сценариях, но у вас нет времени или желания собирать обширный разнообразный датасет. А может, у вас вообще есть всего одна фотография (с хозяевами кошек так обычно не бывает, но допустим).

Хорошая новость: эту задачу можно решить, копнув поглубже в свойства диффузии! В этой статье я расскажу, как это сделать.

06cd9fc5c1ab891cc12c6be638b67217

Итак, вы решили дообучить диффузионную модель для генерации конкретного объекта, используя всего одно изображение. Вы принимаете решение обучить легковесную LoRA (Low‑Rank Adaptation), полагая, что этого будет достаточно, но сталкиваетесь с результатом, далёким от ваших ожиданий: монотонные позы, словно скопированные с оригинального снимка, размытые и скучные фоновые элементы, а сама генерация лишена яркости, гибкости и разнообразия.

Это переобучение. Чем меньше обучающая выборка и чем менее разнообразны на ней позиции объекта и фоновые элементы, тем сильнее модель запоминает исходное изображение и пытается воспроизвести его в генерации. Проблема в том, что у большинства пользователей крайне редко имеются фотографии целевых объектов в различных условиях: с разными позами и фонами, что делает задачу кастомизации модели на основе всего одного изображения наиболее востребованной.

Роль временных шагов диффузии в переобучении

Существует множество подходов к решению данной проблемы — от различных методов аугментации и маскирования до механизмов регуляризации и внедрения новых архитектур. Однако мы решили глубже исследовать природу явления переобучения и задаться вопросом: а может быть его источник кроется прямо в самом диффузионном процессе, а точнее — в диффузионных таймстепах?

Множество исследований показывает, что различные диффузионные таймстепы играют свои уникальные роли в процессе формирования изображения (раз, два, три). Наиболее шумные шаги формируют скелет картинки, промежуточные — уточняют детали и насыщают визуальный контент, а финальные, самые «чистые» таймстепы сосредоточены на устранении остаточного шума.

Кроме того, работы (раз, два, три) демонстрируют, что самые шумные шаги играют ключевую роль в создании разнообразия изображений. Некачественное формирование контекста, заданного промптом, на ранних стадиях значительно уменьшает шансы на его корректное восстановление на последующих временных шагах.

Чтобы глубже понять влияние таймстепов на переобучение модели, мы провели следующий эксперимент. Во время дообучения SD‑XL с использованием LoRA мы изменили стандартный подход случайного семплирования таймстепов из полного диапазона (от 0 до 1000): вместо этого мы фиксировали узкие интервалы — по 100 шагов, семплируя таймстепы только из них.

Результаты показывают, что дообучение модели на наиболее шумных таймстепах (от 800 до 1000) приводит к быстрому переобучению, запоминанию поз и фона, что ограничивает разнообразие изображений и согласованность с промптом. В то же время эти временные шаги имеют решающее значение для определения формы и пропорций. На средних временных шагах (от 500 до 800) сгенерированный контекст становится богаче, и модель лучше воспроизводит мелкие детали концептов. Однако, мы теряем информацию, связанную с формой и пропорциями. Например, ботинок на рисунке сохраняет детали, соответствующие оригиналу, но становится короче. Наконец, дообучение на меньших временных шагах (от 0 до 500) демонстрирует наилучшее соответствие промпту и дает самую богатую генерацию. Однако этот подход не позволяет в точности воспроизвести объект, теряя как форму, так и мелкие детали объекта.

Генерация при дообучении модели на таймстепах из узких интервалов
Генерация при дообучении модели на таймстепах из узких интервалов

Эти результаты подчёркивают важность регулирования интенсивности, с которой происходит передача сигнала о концепте, на разных диффузионных шагах. 

Инъекция информации о концепте на более шумных шагах должна быть ограничена, чтобы сохранить разнообразие и гибкость генерации. Средние временные шаги должны получать больше информации о концепте для корректного воспроизведения мелких деталей. На самых поздних шагах ограничивать передачу информации нет необходимости, так как риск переобучения на этом этапе минимален.

Vanilla T-LoRA

Исходя из этих выводов, мы предлагаем стратегию дообучения диффузионных моделей, зависящую от временного шага. Наш метод динамически корректирует ранги адаптеров LoRA в зависимости от временного шага диффузии, выделяя меньше параметров на более высоких временных шагах и больше — на более низких. Этот подход, которые мы назвали Vanilla T‑LoRA, реализован на основе маскирования столбцов LoRA.

Если стандартная LoRA описывается следующим выражением:

tilde{W} = W + B A, A in mathbb{R}^{r times m}, B in mathbb{R}^{n times r}

то Vanilla T-LoRA описывается другой формулой:

begin{equation} begin{split}     &tilde{W}_{t} = W + B_{t} A_{t} = W + B M_{t} A, quad A in mathbb{R}^{r times m}, B in mathbb{R}^{n times r}     \     &M_t = M_{r(t)} = mathrm{diag}(underbrace{1, 1, dots, 1}_{r(t)}, underbrace{0, 0, dots, 0}_{r - r(t)}) in mathbb{R}^{r times r} \ &r(t) = lfloor (r - r_{min}) cdot (T-t)/T rfloor + r_{min} end{split} end{equation}

Эта стратегия рангового маскирования динамически контролирует передачу информации на различных временных шагах во время обучения и инференса. На более высоких временны́х шагах используются меньшие ранги, чтобы сохранить генеративные способности, фокусируясь на грубых очертаниях концепта и контексте, тогда как на более низких временных шагах передаётся больше информации для точной передачи деталей концепта.

В качестве функции, задающей ранг в зависимости от диффузионного таймстепа, мы выбрали самую простую — линейную. Она стартует с r_{min} — минимального ранга, который будет использоваться всеми диффузионными таймстепами, и увеличивается по мере уменьшения таймстепа. При r_{min} = r метод сходится к стандартной LoRA.

Ортогональность столбцов LoRA

Метод имеет важное ограничение: его эффективность зависит от ранга матриц A и B. Если столбцы линейно зависимы, данные могут «просочиться» между маскированной и немаскированной частями, что нарушает надёжность исключения информации. Таким образом, для успешного применения стратегии маскирования требуется ортогональность матриц A и B, а матрицы LoRA таким свойством не обладают.

Сингулярные значения матриц B для LoRA с  после 800 шагов обучения. Красная линия обозначает 95% от общей суммы сингулярных значений.
Сингулярные значения матриц B для LoRA с r = 64 после 800 шагов обучения. Красная линия обозначает 95% от общей суммы сингулярных значений.

Один из способов сделать матрицы ортогональными — применение регуляризации как в AdaLoRA:

tilde{W} = W + BSA, quad L_{reg} = lambda_{reg}(| AA^T - I |^2_F + | B^TB - I |^2_F),

где матрицы A и Bинициализируются случайно, а матрица S — нулями.

Однако в задаче кастомизации диффузионной модели этот метод не может быть применим по следующим причинам:

  1. Применение этой регуляризации требует более 10 000 итераций обучения для того, чтобы матрицы сошлись к ортогональным, что значительно превосходит стандартные 1000–2000 итераций, необходимых для кастомизации диффузионной модели.

  2. Инициализация матрицы S очень маленькими значениями значительно замедляет обучение, как мы увидим далее.

Таким образом, нам необходимо, чтобы, с одной стороны, матрицы A и B были ортогональными с самого начала, а, с другой стороны, чтобы матрица S не была инициализирована нулями.

Для достижения этой цели мы предлагаем LoRA trick, который позволяет инициализировать матрицы любыми ненулевыми значениями. Его суть заключается в добавлении линейного адаптера с последующим вычитанием этого же адаптера. В результате итоговая суммарная добавка остается равной нулю, независимо от того, как были инициализированы изначальные линейные слои. Во время обучения обновляются только веса положительной добавки, в то время как все остальные параметры фиксируются и рассматриваются как новые замороженные веса модели:

tilde{W} = underbrace{W - BSA}_{text{new weights}} + underbrace{BSA}_{text{LoRA}} = hat{W} + BSA

Теперь мы можем выбрать их изначально ортогональными, используя SVD‑разложение некоторой матрицы:

A_{init} =V^T_r, B_{init} = U_r, S_{init}=S_r

Этот метод мы называем Ortho‑LoRA. Его ключевое свойство заключается в том, что он позволяет сохранять столбцы матриц линейно независимыми на протяжении всего обучения без какой‑либо дополнительной регуляризации.

Сингулярные значения матриц  для LoRA и Ortho‑LoRA с  после 800 шагов обучения. Красная линия обозначает 95% от общей суммы сингулярных значений.
Сингулярные значения матриц B для LoRA и Ortho‑LoRA с r = 64 после 800 шагов обучения. Красная линия обозначает 95% от общей суммы сингулярных значений.

T-LoRA

Объединяя вместе стратегию маскирования в зависимости от диффузионного шага и ортогональную инициализацию, позволяющую сохранять столбцы матриц линейно независимыми на протяжении всего обучения, мы приходим к финальному методу, который мы зовём T‑LoRA:

begin{split}     &    tilde{W} = W - B_{init}S_{init}M_tA_{init} + BSM_tA,     \     &M_t = M_{r(t)} = mathrm{diag}(underbrace{1, 1, dots, 1}_{r(t)}, underbrace{0, 0, dots, 0}_{r - r(t)}) \ &A_{init} =V^T[-r:], B_{init} = U[-r:] text{ and } S_{init}=S[-r:] end{split}

Изображение ниже резюмирует ключевые отличия трех описанных выше методов.

Vanilla T‑LoRA = LoRA + timestep dependent masking

T‑LoRA = Ortho‑LoRA + timestep dependent masking

778f80437ba3d37d171fcfe0fa651d15

Выбор инициализации

Осталось ответить на один важный вопрос: SVD какой матрицы использовать для инициализации?

Мы исследовали шесть вариантов инициализации Ortho‑LoRA, основанных на первых, средних и последних компонентах сингулярного разложения исходных весов W и случайной матрицы R. Метрики CLIP Image Similarity (IS) и CLIP Text Similarity (TS) для всех вариантов инициализации представлены на рисунке: 

27eb55e075f992890a0b3e0629470f4b

Во‑первых, мы заметили, что для всех рангов и для обеих инициализаций (из R и W) точки на графике по TS упорядочены в соответствии с величиной сингулярных значений при инициализации: использование первых компонентов приводит к самой низкой TS, за ним следуют средние компоненты, а инициализация последними компонентами даёт наивысшую TS. Это говорит о том, что более высокие сингулярные значения сильно коррелируют с переобучением. При рангах 4 и 8 инициализация с использованием последних компонент W оказывается слишком близкой к нулю и замедляет процесс обучения. В то же время инициализация последними компонентами R такого эффекта не вызывает. В итоге, использование последних компонентов сингулярного разложения случайной матрицы R демонстрирует оптимальные результаты для большинства рангов, поэтому мы применяем этот подход во всех последующих экспериментах с Ortho‑LoRA и T‑LoRA.

Выбор минимального ранга

На рисунке ниже представлены примеры генерации для Ortho‑LoRA и T‑LoRA при значениях r_{min}, установленных на уровне 25% и 50% от полного ранга. Оба варианта T‑LoRA значительно улучшают соответствие тексту и позволяют добиться большего разнообразия поз и фонов для концептов по сравнению с Ortho‑LoRA без маскирования. При меньших r_{min} генерация становится более гибкой. Однако 25% иногда оказывается недостаточно для точной передачи концепта, в то время как 50% показывает оптимальные результаты и по передаче концепта, и по гибкости генерации.

a60d23fc2edb6d532d2281b4a4210c92

Сравнение с LoRA

Мы сравнили предложенный метод со стандартной LoRA и Vanilla T‑LoRA на нескольких рангах. 

Image Similarity (IS) и Text Similarity (TS) для  LoRA, Vanilla T-LoRA, и T-LoRA для разных рангов.
Image Similarity (IS) и Text Similarity (TS) для  LoRA, Vanilla T-LoRA, и T-LoRA для разных рангов.

На всех рангах Vanilla T‑LoRA и T‑LoRA показывают более высокие значения TS по сравнению со стандартной LoRA, в то время как IS у них почти одинаковый. 

На низких рангах Vanilla T‑LoRA и T‑LoRA показывают схожую эффективность, так как LoRA приближается к полному рангу. Однако с увеличением ранга преимущества T‑LoRA становятся более очевидными: эффективность маскировки в Vanilla T‑LoRA снижается, в то время как T‑LoRA полностью раскрывает свой потенциал.

Сравнение с другими бейзлайнами

В дополнение к LoRA мы сравниваем T‑LoRA с другими легковесными методами настройки, такими как OFT, GSOFT и SVDiff. 

7926d3207c258edad7ca0024cb5300b5

T‑LoRA демонстрирует наибольшее TS среди всех методов, за исключением SVDiff. Однако SVDiff показывает очень низкое IS и часто неудачно передает концепт. LoRA, напротив, обеспечивает наивысшее IS, но при этом показывает значительное переобучение. На рисунке ниже представлены примеры генерации для каждого метода.

47b5e5a34c6c7fd7160a45c31120c092

Мы видим, что T‑LoRA обеспечивает бо́льшую гибкость при генерации, позволяя изменять позу объекта, его масштаб и фон, что не всегда выходит удачно у других методов. При этом она также с высокой точностью генерирует целевой концепт.

User Study

Поскольку метрики не всегда в точности отображают реальное человеческое восприятие, мы также провели исследование с оценками пользователей, чтобы оценить работу нашего алгоритма и сравнить его с существующими методами.

Используя оригинальное изображение концепта, текстовый запрос и два сгенерированных изображения (одно создано с помощью T‑LoRA, а другое — альтернативным методом), мы попросили пользователей ответить на следующие вопросы: 

(1) «Какое изображение более точно представляет оригинальный концепт?» для оценки сходства с оригиналом; 

(2) «Какое изображение больше соответствует текстовому запросу?» для оценки текстового сходства; 

(3) «Какое изображение в целом лучше соответствует запросу и сохраняет идентичность концепта?» для оценки общего предпочтения. 

Для каждой пары методов мы случайным образом сгенерировали 60 уникальных пар концептов и запросов. Результаты User Study приведены в таблице

c09b5436f50eaa85d45fc15a099b2259

Из неё видно, что T‑LoRA значительно превосходит другие методы по соответствию тексту и общему предпочтению, одновременно достигая сопоставимого или лучшего качества передачи концепта по сравнению с большинством методов. Исключением является LoRA, которая превосходит T‑LoRA в сходстве с оригинальным концептом. Однако это происходит из‑за того, что LoRA сильно склонна к переобучению и полному воспроизведению оригинального изображения. 

Заключение

Таким образом, наша работа делает важный шаг в сторону гибкого дообучения диффузионных моделей при ограниченных данных и вычислительных ресурсах. Сделано это ценой небольшого увеличения времени за счёт инициализации матриц через SVD, а также введения дополнительного гиперпараметра r_{min}, за которым также нужно следить. В наших экспериментах значение 50% от полного ранга показало наилучшие результаты, однако оптимальный параметр может варьироваться в зависимости от конкретного концепта и задачи.

Если у вас остались вопросы, постараюсь на всё ответить в комментариях!

Также приглашаем вас подписаться на каналы авторов: if‑else, AI Brain, Complete AI.

Источник: habr.com

✅ Найденные теги: T-LoRA:, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых