Майкл Нуньес

Рынок голосового ИИ для предприятий переживает настоящую борьбу за лидерство. На этой неделе ElevenLabs и IBM объявили о сотрудничестве, направленном на внедрение высококачественных голосовых возможностей в платформу IBM watsonx Orchestrate. Google Cloud расширяет возможности своих голосовых систем Chirp 3 HD. OpenAI продолжает совершенствовать собственные системы синтеза речи. И рынок, лежащий в основе всей этой деятельности, огромен — по оценкам экспертов, к 2026 году объем мирового рынка голосового ИИ превысил 22 миллиарда долларов, а сегмент голосовых ИИ-агентов, по прогнозам, достигнет 47,5 миллиардов долларов к 2034 году.
В четверг утром компания Mistral AI вступила в эту борьбу с принципиально иным предложением. Парижский стартап в области искусственного интеллекта выпустил Voxtral TTS, как он сам заявляет, первую в своем роде модель преобразования текста в речь с открытыми весами, разработанную специально для корпоративного использования. В то время как все основные конкуренты в этой сфере ведут собственный бизнес с использованием API — предприятия арендуют голос, а не владеют им — Mistral выпускает полные веса модели, предлагая компаниям загрузить Voxtral TTS, запустить его на собственных серверах или даже на смартфоне и никогда не отправлять ни одного аудиокадра третьим лицам.
Это ставка на то, что будущее корпоративного голосового ИИ будет определяться не тем, кто создаст лучшую по звучанию модель, а тем, кто предоставит компаниям наибольший контроль над ней. И это происходит в тот момент, когда Mistral, оцененная в 13,8 миллиарда долларов после раунда финансирования серии C в размере 2 миллиардов долларов, возглавляемого голландским производителем микросхем ASML в сентябре прошлого года, активно собирает строительные блоки полноценной, принадлежащей предприятиям платформы ИИ — от своей платформы настройки Forge, анонсированной на Nvidia GTC в начале этого месяца, до производственной инфраструктуры AI Studio и модели преобразования речи в текст Voxtral Transcribe, выпущенной всего несколько недель назад.
Voxtral TTS — это выходной слой, который дополняет эту картину, предоставляя предприятиям конвейер преобразования речи в речь, который они могут использовать от начала до конца, не полагаясь на какого-либо внешнего поставщика.
«Мы рассматриваем аудио как крупную ставку и как критически важный, а возможно, и единственный будущий интерфейс для взаимодействия со всеми моделями искусственного интеллекта», — заявил в эксклюзивном интервью VentureBeat Пьер Сток, вице-президент Mistral по научным вопросам и первый сотрудник, принятый на работу в компанию. «Это то, о чем просили клиенты».
Модель с 3 миллиардами параметров, которая помещается на ноутбуке и работает в шесть раз быстрее, чем речь в реальном времени.
Технические характеристики Voxtral TTS выглядят как намеренное переворачивание отраслевых норм. В то время как большинство передовых моделей TTS являются большими и ресурсоемкими, компания Mistral разработала свою модель примерно в три раза меньше, чем то, что она называет отраслевым стандартом для сопоставимого качества.
Архитектура состоит из трех компонентов: базовой сети декодера с 3,4 миллиардами параметров, акустического трансформатора с согласованием потоков с 390 миллионами параметров и нейронного аудиокодека с 300 миллионами параметров, разработанного компанией Mistral собственными силами. Система построена на базе Ministral 3B, той же предварительно обученной базовой сети, которая используется в модели Voxtral Transcribe компании — это решение, по словам Стока, является показательным для культуры эффективности и повторного использования артефактов в Mistral.
На практике модель достигает времени до первого аудиосигнала в 90 миллисекунд для типичного входного сигнала и генерирует речь примерно в шесть раз быстрее, чем в реальном времени. При квантовании для вывода ей требуется примерно три гигабайта оперативной памяти. Компания Stock подтвердила, что она может работать на любом ноутбуке или смартфоне, и даже на более старом оборудовании она продолжает работать в реальном времени.
«Это модель 3B, поэтому она может работать практически на любом ноутбуке или смартфоне», — сказал Сток в интервью VentureBeat. «Если прибавить объем памяти, то получится три гигабайта. И её можно запускать даже на очень старых чипах — она всё равно будет работать в режиме реального времени».
Модель поддерживает девять языков — английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский — и может адаптироваться к пользовательскому голосу, имея всего пять секунд эталонного аудио. Что, пожалуй, еще более примечательно, она демонстрирует адаптацию голоса к другому языку без предварительного обучения для этой задачи.
Сток проиллюстрировал это личным примером: он может ввести модели 10 секунд своего голоса с французским акцентом, набрать подсказку на немецком языке, и модель сгенерирует немецкую речь, которая будет звучать как он сам — со всем его естественным акцентом и голосовыми особенностями. Для предприятий, работающих в разных странах, эта возможность открывает каскадный перевод речи, сохраняющий идентичность говорящего, — функция, которая имеет очевидное применение в поддержке клиентов, продажах и внутренних коммуникациях для многонациональных организаций.

Эксперты-люди отдавали предпочтение Voxtral перед ElevenLabs почти в 70% случаев при настройке голоса.
Компания Mistral не скрывает, какого конкурента она намерена вытеснить. В ходе проведенных компанией оценок Voxtral TTS, система преобразования текста в речь (TTS) получила 62,8% положительных отзывов слушателей по сравнению с ElevenLabs Flash v2.5 при использовании флагманских голосов и 69,9% положительных отзывов при настройке голоса. Mistral также утверждает, что модель работает наравне с ElevenLabs v3 — премиальной версией компании с более высокой задержкой — в плане эмоциональной выразительности, сохраняя при этом аналогичную задержку, как у гораздо более быстрой модели Flash.
Методология оценки включала сравнительное тестирование по всем девяти поддерживаемым языкам. Используя два узнаваемых голоса на их родных диалектах для каждого языка, три аннотатора провели тесты на предпочтение естественности, соответствия акценту и акустического сходства с оригинальным эталоном. Компания Mistral утверждает, что Voxtral TTS значительно превзошла ElevenLabs v2.5 Flash по качеству, особенно в многоязычных пользовательских настройках голоса без предварительного тестирования, подчеркивая то, что компания называет «мгновенной настраиваемостью» модели.
ElevenLabs по-прежнему широко считается эталоном качества обработки естественного голоса. Модель Eleven v3 была названа многими независимыми обозревателями золотым стандартом для эмоционально нюансированной речи, созданной с помощью ИИ. Однако ElevenLabs работает как закрытая платформа с многоуровневой системой подписки, которая варьируется от примерно 5 долларов в месяц на начальном уровне до более чем 1300 долларов в месяц для бизнес-планов. Компания не публикует весовые коэффициенты моделей.
Компания Mistral утверждает, что предприятиям не следует выбирать между качеством и контролем, и что в больших масштабах экономика модели с открытым весом значительно выгоднее.
«Мы хотим подчеркнуть, что мы работаем быстрее и дешевле, а также используем открытый исходный код», — сказал Сток в интервью VentureBeat. «Когда что-то имеет открытый исходный код и стоит недорого, люди начинают это использовать и развивать».
Он сформулировал аргумент о стоимости в терминах, понятных техническим директорам, управляющим бюджетами на ИИ: «Искусственный интеллект — это преобразующая технология, но у нее есть своя цена. Когда вы хотите масштабироваться и оказывать влияние на крупный бизнес, эта стоимость имеет значение. А мы позволяем масштабироваться без проблем, минимизируя затраты и максимизируя точность».

Почему компания Mistral считает, что предприятия захотят владеть собственным голосовым ИИ, а не арендовать его?
Чтобы понять, почему Mistral выходит на рынок преобразования текста в речь именно сейчас, необходимо разобраться в более широкой стратегической архитектуре, которую компания выстраивала в течение последнего года. В то время как OpenAI и Anthropic захватили воображение потребителей, Mistral незаметно создала, возможно, самую всеобъемлющую корпоративную платформу искусственного интеллекта в Европе — и все чаще в мире.
Как сообщает TechCrunch со ссылкой на запуск Forge, генеральный директор Артур Менш заявил, что компания находится на пути к превышению 1 миллиарда долларов годового дохода от регулярных поступлений в этом году. Financial Times сообщила, что годовой доход Mistral вырос с 20 миллионов долларов до более чем 400 миллионов долларов всего за один год. Этот рост был обеспечен более чем 100 крупными корпоративными клиентами и последовательной концепцией: компании должны владеть своей инфраструктурой ИИ, а не арендовать ее.
Voxtral TTS — это новейшее воплощение этого тезиса, примененное к, возможно, самой конфиденциальной категории корпоративных данных. Голосовые записи фиксируют не только слова, но и эмоции, личность и намерения. Они несут в себе юридический, нормативный и репутационный вес, которого часто не обладают текстовые данные. Для таких отраслей, как финансовые услуги, здравоохранение и государственное управление — все это ключевые сегменты деятельности Mistral — отправка голосовых данных через API стороннего сервиса сопряжена с рисками, которые многие команды по обеспечению соответствия требованиям не готовы принять.
Сток убедительно выдвинул аргумент о суверенитете данных. «Поскольку модели используют открытые веса, у нас нет никаких проблем с тем, чтобы фактически передавать веса предприятию и помогать ему настраивать модели», — сказал он. «Мы больше не видим весов. Мы не видим данных. Мы ничего не видим. И вы полностью контролируетесь».
Это послание особенно актуально в Европе, где в течение 2026 года усилилась обеспокоенность по поводу технологической зависимости от американских облачных провайдеров. В настоящее время ЕС получает более 80 процентов своих цифровых услуг от иностранных поставщиков, большинство из которых — американские. Компания Mistral позиционирует себя как решение этой проблемы — единственный европейский разработчик передовых решений в области ИИ, обладающий масштабом и техническими возможностями для предоставления достойной альтернативы.
Голосовые агенты — это пример корпоративного применения, который позволяет в полной мере использовать весь комплекс решений Mitral в области искусственного интеллекта.
Voxtral TTS — это заключительный элемент конвейера, который Mistral методично собирала. Voxtral Transcribe обрабатывает преобразование речи в текст. Языковые модели Mistral — от Mistral Small до Mistral Large — обеспечивают уровень логического вывода. Forge позволяет предприятиям настраивать любую из этих моделей на своих собственных данных. AI Studio предоставляет производственную инфраструктуру для мониторинга, управления и развертывания. А Mistral Compute предлагает базовые ресурсы GPU.
Вместе эти компоненты образуют то, что Сток описал как «полный стек ИИ, полностью управляемый и настраиваемый» для предприятий. Голосовые агенты — системы ИИ, которые могут слушать клиента, понимать его потребности, рассуждать о причинах ответа и отвечать естественной речью — являются тем вариантом использования, который объединяет все эти уровни.
Приложения, которые разрабатывает Mistral, охватывают широкий спектр областей: поддержка клиентов, где голосовые агенты могут направлять и решать запросы с помощью речи, соответствующей бренду; продажи и маркетинг, где один голос может работать на разных рынках благодаря межъязыковой эмуляции; перевод в реальном времени для трансграничных операций; и даже интерактивное повествование и разработка игр, где управление эмоциями может контролировать тон и индивидуальность.
Сток наиболее оживленно обсуждал, как Voxtral TTS вписывается в более широкую тенденцию развития агентного ИИ, которая доминировала в дискуссиях о корпоративных технологиях в 2026 году. «Мы полностью ориентированы на мир, в котором аудио является естественным интерфейсом, в частности, для агентов, которым можно делегировать работу — как продолжение вас самих», — сказал он. Он описал сценарий, в котором пользователь начинает планировать отпуск на компьютере, едет на работу, а затем продолжает работу на телефоне, просто запросив обновление голосом.
«Для этого вам нужна модель, которой можно доверять, модель, которая очень эффективна и очень дешева в эксплуатации — иначе вы не будете использовать ее долго — и модель, которая звучит очень разговорно и которую можно прервать в любой момент», — сказал Сток.
Такой акцент на возможности прерывания и реагировании в реальном времени отражает более широкое понимание голосовых интерфейсов, отличающее их от текстовых. Чат-бот может отвечать в течение двух-трех секунд, не нарушая пользовательский опыт. Голосовой агент этого сделать не может. Время до первого звукового сигнала в 90 миллисекунд, которое обеспечивает Voxtral TTS, — это не просто эталонный показатель, а порог между естественным и роботизированным голосовым взаимодействием.
Открытый подход Mistral к оптимизации веса соответствует более широким отраслевым изменениям, которые поддерживает даже Nvidia.
Решение Mistral выпустить Voxtral TTS с открытыми весами соответствует движению, набирающему обороты в индустрии ИИ. На конференции Nvidia GTC в начале этого месяца генеральный директор Nvidia Дженсен Хуанг заявил, что «разница между проприетарным и открытым — это не одно и то же, это и проприетарное , и открытое». Nvidia объявила о создании Nemotron Coalition, первого в своем роде объединения разработчиков моделей, работающих над развитием открытых базовых моделей на переднем крае, при этом Mistral является одним из основателей. Первым проектом этой коалиции станет базовая модель, разработанная совместно Mistral AI и Nvidia.
Для Mistral открытые веса выполняют двойную коммерческую функцию. Они способствуют внедрению — разработчики и предприятия могут экспериментировать без препятствий и обязательств, — в то время как компания монетизирует свои платформенные сервисы, предложения по настройке и управляемую инфраструктуру. Модель доступна для тестирования в Mistral Studio и через API компании, но стратегическая цель состоит в том, чтобы стать частью корпоративных голосовых сетей в качестве собственного актива, а не услуги с оплатой по факту использования.
Это перекликается с тактикой, которая сработала для языковых моделей Mistral. Как Менш заявил CNBC в феврале, «искусственный интеллект позволяет нам разрабатывать программное обеспечение со скоростью света», предсказывая, что «более половины того, что сейчас покупают ИТ-специалисты в формате SaaS, перейдет на ИИ». Он описал «переход на новые платформы», происходящий в сфере корпоративных технологий, когда компании стремятся заменить устаревшие программные системы альтернативами, изначально разработанными для ИИ. Открытая голосовая модель, которую предприятия могут настраивать и развертывать по своему усмотрению, органично вписывается в эту концепцию.
Компания Mistral заявляет, что сквозное аудиоискусственное интеллектуальное решение — это то направление, в котором она планирует двигаться дальше.
На вопрос о планах на будущее Voxtral TTS Сток обозначил два направления. Первое — расширение поддержки языков и диалектов с особым вниманием к культурным нюансам. «Говорить по-французски в Париже — это совсем не то же самое, что говорить по-французски в Канаде, в Монреале», — сказал он. «Мы хотим уважать обе культуры и хотим, чтобы наши модели работали в обоих контекстах со всеми культурными особенностями».
Второе направление более амбициозно: создание полноценной сквозной аудиомодели, которая не просто генерирует речь из текста, но и понимает весь спектр человеческой голосовой коммуникации.
«Мы передаем определенный смысл словами, которые произносим, — сказал Сток. — На самом деле, мы передаем гораздо больше через интонацию, ритм и манеру речи. Когда люди говорят о сквозном аудио, они имеют в виду именно это — модель способна, например, определить, что вы спешите, и выберет самый быстрый ответ. Модель поймет, что вы сегодня в хорошем настроении, и пошутит. Она очень хорошо адаптируется к вам, и именно к этому мы стремимся».
Эта концепция — искусственный интеллект, который говорит естественно, слушает с учетом нюансов, реагирует с эмоциональным интеллектом и работает на модели, достаточно компактной, чтобы поместиться в кармане, — это та область, к которой стремятся все крупные лаборатории ИИ. На данный момент Voxtral TTS дает Mistral основу для дальнейшего развития, а предприятиям — вопрос, на который им раньше не приходилось отвечать: если вы можете владеть своим стеком голосового ИИ полностью, по более низкой цене и с конкурентоспособным качеством, зачем вам продолжать арендовать чужой?
Подпишитесь, чтобы получать самые свежие новости!
Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.
Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.
Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.
Источник: venturebeat.com
























