Вайбовый STT с часовым контекстом
Microsoft выложила VibeVoice-ASR — модель распознавания речи для тех, кто собирает пайплайны агентов и работает с длинным аудио.
Ключевая фишка — до 60 минут звука за один проход, без нарезки на чанки и без потери контекста.
Что внутри:
— Single-pass транскрипция: стабильная речь по всей дорожке, меньше контекстных разрывов.
— Диаризация из коробки: кто говорит + таймкоды.
— Hotwords и user-context: на вход можно подать имена, термины и предметный контекст — полезно для доменных задач.
— MIT-лицензия: можно спокойно тащить в прод.
— Открытый код с поддержкой vLLM-ASR.
Хороший кандидат на замену текущего ASR в связках с LLM, OCR и агентами.
Без магии, но с акцентом на длинный контекст и инженерную практичность.


























