Новый стандарт генерации речи: FlashLabs выпустила Chroma 1.0
Chroma 1.0 — первая открытая модель преобразования речи в реальном времени с персонализированным клонированием голоса.
Преобразование родной речи в речь с задержкой менее 150 мс и клонирование голоса по секундам прослушивания.
Детали:
— Модель отвечает меньше чем за 150 мс.
— Работает напрямую с голосом без этапов распознавания и озвучки.
— Клонирует голос по 3–5 секундам примера.
— Качество клонирования 0.817 по метрике SIM. У человека в среднем 0.73. Это лучший результат среди всех аналогов.
— Размер модели 4B параметров, но по качеству диалога и рассуждений она сравнима с Qwen 2.5 Omni 3B, Llama 3 и Mimi.
— Код и веса полностью открыты.



























