Китайцы выкатили CosyVoice 3 — одну из самых мощных нейронок для озвучки и клонирования голоса.
Что умеет CosyVoice 3:
— всего 0.5B параметров — запускается локально даже на слабом железе
— по качеству обходит модели в 3 раза больше
— 9 языков, включая русский
— Zero-shot клонирование: 3–10 секунд аудио — и голос скопирован полностью
— стриминг в реальном времени с задержкой ~150 мс
— Pronunciation Inpainting — ручная настройка произношения слов
— коммерческая лицензия
Минимальный размер, максимальный эффект — голосовой ИИ стал ещё ближе к продакшену.






















