Яндекс наконец научил нейросеть нормально писать по-русски на картинках Яндекс…
Яндекс наконец научил нейросеть нормально писать по-русски на картинках
Яндекс обновил Alice AI ART с большим фокусом на генерацию кириллического текста — и это одна из самых болезненных проблем для diffusion-моделей.
До сих пор нейросети воспринимали буквы скорее как текстуру, а не как стабильные символы. С кириллицей всё было ещё хуже: мало качественных данных, много шумных примеров и почти полное доминирование английского в датасетах.
Теперь ситуация заметно улучшилась.
Ключевые моменты:
— точность генерации кириллицы выросла примерно в 3 раза
— фразы длиной 7–9 слов теперь корректно генерируются в большинстве случаев
— общее качество изображений выросло примерно на треть
— локальная айдентика показывает около 85% успешных генераций
Что изменили технически:
— собрали собственный датасет:
— 30 млн пар «изображение-текст» для претрейна
— ~100 тыс. для файнтюна
— добавили разметку глифов
— сменили архитектуру:
— с UNet → на Diffusion Transformer
— заменили текстовый энкодер на LLM
— начали обучать модель сразу на русскоязычных промптах
Советы по промптингу от команды:
— заключать текст в кавычки
— сложные слова писать КАПСОМ
— длинные надписи разбивать на части
— явно указывать расположение текста
Похоже, генерация нормального текста внутри картинок постепенно перестаёт быть «магией через 50 перегенераций» — по крайней мере для кириллицы.


Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.