Mistral выпустил открытую модель для распознавания речи Voxtral 🗣
Стартап п<a href="https://mistral.ai/news/voxtral»>редставляет Voxtral как полноценную альтернативу закрытым системам — с открытыми весами, высокой точностью работы и существенно меньшей стоимостью. Модель работает на базе Mistral Small 3.1, благодаря этому Voxtral транскрибирует до 30 минут аудио и может отслеживать контекст до 40 минут. Voxtral отвечает на вопросы, создает резюме и относительно быстро выполняет другие команды — от вызова API до запуска функций.
На данный момент пользователям доступно два основных варианта: Voxtral Small (24 млрд параметров) для масштабных развертываний и Voxtral Mini (3 млрд) — для локального и периферийного развертывания. Voxtral Small и Mini способны отвечать на вопросы непосредственно по аудиозаписи либо на основе комбинированного ввода — звука и текстового запроса.
Отдельно выпущена сверхдешевая, упрощенная и быстрая версия API Mini с 3 млрд параметров под названием Voxtral Mini Transcribe, оптимизированная исключительно для перевода аудио в текст.
Внутренний бенчмарк Mistral Audio Understanding п<a href=»https://arxiv.org/html/2507.13264v1″>оказал, что Voxtral Small достигает точности 86,6%, а более компактная Voxtral Mini — 85,6%, по оценке llm_judge_score. Это сопоставимо с показателями Gemini 2.5 Flash (88,6%) и выше, чем у GPT-4o mini Audio (80%).
В дополнение к этому Voxtral Small протестирована на распространенных аудиозадачах, где модель обрабатывает как синтезированную речь, так и комбинированные голосовые и текстовые запросы. В задаче Openbook QA она показала 88,4% точности, в GSM8k — 89,7%, в Trivia QA — 79,4%, на синтезированной версии MMLU — 74,3%, в Llama QA — 71,7%, а в MMAU — 62,2%.
Пользователи могут бесплатно п<a href="https://techcrunch.com/2025/07/15/mistral-releases-voxtral-its-first-open-source-ai-audio-model/»>опробовать Voxtral, воспользовавшись API на Hugging Face или протестировав модели в чат-боте Mistral Le Chat. По данным компании, интеграция API в приложения стоит от $0,001 в минуту.























