Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

VibeVoice — семейство AI-моделей для генерации и распознавания речи. 

Цифровая визуализация работы голосового AI-проекта от Microsoft в стиле киберпанк.
Цифровая визуализация работы голосового AI-проекта от Microsoft в стиле киберпанк.

🤔 VibeVoice — это семейство AI-моделей для генерации и распознавания речи.

Что умеет:
— ASR-модель расшифровывает до 60 минут аудио за один проход;
— понимает, кто говорит, когда говорит и что говорит;
— TTS-модель генерирует диалоги до 90 минут с несколькими голосами;
— realtime-версия выдает речь почти без задержки (~300 мс).

💯 Самое интересное — Microsoft делает ставку на long-context voice AI.

То есть индустрия идет не просто к “озвучке текста”, а к полноценным голосовым AI-системам:
— AI-операторы;
— AI-ассистенты;
— автономные звонки;
— realtime-перевод;
— voice agents.

🪐 И все это постепенно становится open-source.

✅ Найденные теги: AI, ASR, Microsoft, TTS, VibeVoice, здоровье, новости

Добавить комментарий