Hume AI показала быструю голосовую модель с естественным звучанием
Исследователи из Hume AI представили новую систему синтеза речи, ориентированную на естественное звучание и высокую скорость генерации.
Главная особенность технологии — жёсткая синхронизация текста и аудио, благодаря чему модель работает примерно в пять раз быстрее многих аналогичных решений.
Как это устроено:
— используется точное соответствие между текстовыми токенами и аудио-векторами
— модель генерирует полный речевой сегмент для каждого текстового токена за один шаг
— генерация не привязана к фиксированной частоте, как у многих классических TTS-моделей
Такой подход позволяет избежать распространённых проблем синтеза речи:
— модель не добавляет лишние слова
— не пропускает фрагменты текста
— лучше сохраняет смысл и структуру длинных фраз
Ещё одна важная особенность — компактность моделей. Версии на 2B и 4B параметров могут работать локально на устройствах, включая смартфоны, без подключения к облаку.
Благодаря этому система подходит для:
— голосовых ассистентов
— локальных ИИ-агентов
— офлайн-озвучки длинных текстов
— мобильных приложений с синтезом речи.






















