Архив рубрики ~Коротко из Telegram~

Яндекс наконец научил нейросеть нормально писать по-русски на картинках Яндекс…

Яндекс наконец научил нейросеть нормально писать по-русски на картинках Яндекс…

Яндекс наконец научил нейросеть нормально писать по-русски на картинках

Яндекс обновил Alice AI ART с большим фокусом на генерацию кириллического текста — и это одна из самых болезненных проблем для diffusion-моделей.

До сих пор нейросети воспринимали буквы скорее как текстуру, а не как стабильные символы. С кириллицей всё было ещё хуже: мало качественных данных, много шумных примеров и почти полное доминирование английского в датасетах.

Теперь ситуация заметно улучшилась.

Ключевые моменты:

— точность генерации кириллицы выросла примерно в 3 раза
— фразы длиной 7–9 слов теперь корректно генерируются в большинстве случаев
— общее качество изображений выросло примерно на треть
— локальная айдентика показывает около 85% успешных генераций

Что изменили технически:

— собрали собственный датасет:
30 млн пар «изображение-текст» для претрейна
— ~100 тыс. для файнтюна

— добавили разметку глифов
— сменили архитектуру:
— с UNet → на Diffusion Transformer

— заменили текстовый энкодер на LLM
— начали обучать модель сразу на русскоязычных промптах

Советы по промптингу от команды:

— заключать текст в кавычки
— сложные слова писать КАПСОМ
— длинные надписи разбивать на части
— явно указывать расположение текста

Похоже, генерация нормального текста внутри картинок постепенно перестаёт быть «магией через 50 перегенераций» — по крайней мере для кириллицы.

Оцените материал:

Читайте также
Новости робототехники Вену захватили роботы Архив рубрики ~Лента новостей~ ML Red Teaming для LLM: можно ли обойтись open source-инструментами? Архив рубрики ~Лента новостей~ Объяснение принципа работы «красной команды» с использованием ИИ: что это такое и зачем она вам нужна. Архив рубрики ~Обо всем~ Не только кот: геометрия цвета по Шрёдингеру Архив рубрики ~Лента новостей~ Anthropic официально разрешила применять Claude на собеседованиях в саму Anthropic. Вот четыре правила Архив рубрики ~Лента новостей~ Firebase, Supabase и BaaS: как мы к такому пришли и что там внутри Архив рубрики ~Обо всем~ FDA одобрило энситрелвир для постконтактной профилактики ковида. Его принимают в таблетках Архив рубрики ~Лента новостей~ Компания SpaceX теперь является публичной и ценится за свой потенциал в области искусственного интеллекта. Что же будет дальше? Архив рубрики ~Обо всем~ Микроскопические пузырьки-«доставщики» помогли раскрыться новому свойству противогрибковых препаратов: Медицина Архив рубрики ~Лента новостей~ Как эффективно соответствовать кодексу Клода Архив рубрики ~Лента новостей~ Сбер создал первый в России оптический вычислитель для ИИ Архив рубрики ~Обо всем~ Thermal Grizzly выпустила водоблоки DeltaMate MPII для процессоров AMD AM5 и Intel LGA1851 Архив рубрики ~Обо всем~ По сообщениям, Apple планирует выпустить еще три функции для iOS 27 осенью. Архив рубрики ~Лента новостей~ Малайзийское приложение для обмена сообщениями Respond.io, использующее искусственный интеллект в качестве инструмента, привлекло 62,5 млн долларов и планирует приобретения. Новости робототехники Вену захватили роботы Архив рубрики ~Лента новостей~ ML Red Teaming для LLM: можно ли обойтись open source-инструментами? Архив рубрики ~Лента новостей~ Объяснение принципа работы «красной команды» с использованием ИИ: что это такое и зачем она вам нужна. Архив рубрики ~Обо всем~ Не только кот: геометрия цвета по Шрёдингеру Архив рубрики ~Лента новостей~ Anthropic официально разрешила применять Claude на собеседованиях в саму Anthropic. Вот четыре правила Архив рубрики ~Лента новостей~ Firebase, Supabase и BaaS: как мы к такому пришли и что там внутри Архив рубрики ~Обо всем~ FDA одобрило энситрелвир для постконтактной профилактики ковида. Его принимают в таблетках Архив рубрики ~Лента новостей~ Компания SpaceX теперь является публичной и ценится за свой потенциал в области искусственного интеллекта. Что же будет дальше? Архив рубрики ~Обо всем~ Микроскопические пузырьки-«доставщики» помогли раскрыться новому свойству противогрибковых препаратов: Медицина Архив рубрики ~Лента новостей~ Как эффективно соответствовать кодексу Клода Архив рубрики ~Лента новостей~ Сбер создал первый в России оптический вычислитель для ИИ Архив рубрики ~Обо всем~ Thermal Grizzly выпустила водоблоки DeltaMate MPII для процессоров AMD AM5 и Intel LGA1851 Архив рубрики ~Обо всем~ По сообщениям, Apple планирует выпустить еще три функции для iOS 27 осенью. Архив рубрики ~Лента новостей~ Малайзийское приложение для обмена сообщениями Respond.io, использующее искусственный интеллект в качестве инструмента, привлекло 62,5 млн долларов и планирует приобретения.

Оставить комментарий