VibeVoice — семейство AI-моделей для генерации и распознавания речи.

🤔 VibeVoice — это семейство AI-моделей для генерации и распознавания речи.
Что умеет:
— ASR-модель расшифровывает до 60 минут аудио за один проход;
— понимает, кто говорит, когда говорит и что говорит;
— TTS-модель генерирует диалоги до 90 минут с несколькими голосами;
— realtime-версия выдает речь почти без задержки (~300 мс).
💯 Самое интересное — Microsoft делает ставку на long-context voice AI.
То есть индустрия идет не просто к “озвучке текста”, а к полноценным голосовым AI-системам:
— AI-операторы;
— AI-ассистенты;
— автономные звонки;
— realtime-перевод;
— voice agents.
🪐 И все это постепенно становится open-source.
✅ Найденные теги: AI, ASR, Microsoft, TTS, VibeVoice, здоровье, новости

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.