Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.

04.04.2026 ideipro.ru

Эмилия Давид

crimedy7 иллюстрация робота, расшифровывающего запись совещания --ar cca420ed-5206-436c-8e98-8eb21595bd8e 1

Предприятия, создающие рабочие процессы с голосовым управлением, имели ограниченные возможности для транскрипции производственного уровня: закрытые API с рисками хранения данных или открытые модели, которые жертвуют точностью ради удобства развертывания. Новая модель автоматического распознавания речи Cohere, Transcribe, разработана для конкуренции по всем четырем ключевым параметрам — контекстной точности, задержке, управляемости и стоимости.

По словам Кохера, Transcribe превосходит нынешних лидеров по точности, и, в отличие от закрытых API, может работать на собственной инфраструктуре организации.

Cohere, доступ к которому можно получить через API или в хранилище моделей Cohere под номером cohere-transcribe-03-2026, имеет 2 миллиарда параметров и распространяется под лицензией Apache-2.0. Компания заявила, что Transcribe имеет средний показатель ошибок распознавания слов (WER) всего 5,42%, то есть он допускает меньше ошибок, чем аналогичные модели.

Модель обучена на 14 языках: английском, французском, немецком, итальянском, испанском, греческом, голландском, польском, португальском, китайском, японском, корейском, вьетнамском и арабском. Компания не уточнила, на каком именно диалекте китайского языка была обучена модель.

Компания Cohere заявила, что обучала модель «с целенаправленным стремлением минимизировать WER, одновременно уделяя первостепенное внимание готовности к эксплуатации». По словам Cohere, в результате получилась модель, которую предприятия могут напрямую интегрировать в системы автоматизации на основе голосового управления, конвейеры транскрипции и рабочие процессы аудиопоиска.

Самостоятельно размещаемая система транскрипции для производственных конвейеров

До недавнего времени корпоративная транскрипция представляла собой компромисс: закрытые API обеспечивали точность, но ограничивали доступ к данным; открытые модели предлагали контроль, но отставали по производительности. В отличие от Whisper, который был запущен как исследовательская модель под лицензией MIT, Transcribe доступен для коммерческого использования с момента выпуска и может работать на собственной локальной инфраструктуре графических процессоров организации. Первые пользователи отметили, что готовый к коммерческому использованию подход с открытыми весами является перспективным для корпоративных развертываний.

Организации могут использовать Transcribe на своих локальных экземплярах, поскольку, по словам Cohere, модель имеет более управляемый объем вычислительных ресурсов для локальных графических процессоров. Компания заявила, что смогла это сделать, потому что модель «расширяет границу Парето, обеспечивая высочайшую точность (низкий WER) при сохранении лучшей в своем классе пропускной способности (высокий RTFx) в группе моделей с более чем 1 миллиардом параметров».

Как Transcribe выглядит на фоне конкурентов

Transcribe превзошла таких признанных лидеров в области распознавания речи, как Whisper от OpenAI, лежащий в основе голосовой функции ChatGPT, и ElevenLabs, используемую многими крупными розничными брендами. В настоящее время она лидирует в рейтинге Hugging Face ASR , опережая Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%) и Qwen3-ASR-1.7B (5,76%).

На основе других наборов данных, протестированных Hugging Face, Transcribe также показал хорошие результаты. На наборе данных AMI, измеряющем понимание разговоров на совещаниях и анализ диалогов, Transcribe набрал 8,15%. На наборе данных Voxpopuli, проверяющем понимание различных акцентов, модель набрала 5,87%, уступив только Zoom Scribe.

Первые пользователи отметили точность и локальное развертывание как наиболее важные факторы — особенно для команд, которые ранее передавали аудиоданные через внешние API и хотят перенести эту задачу внутрь компании.

Для инженерных групп, создающих конвейеры обработки RAG-сигналов или рабочие процессы агентов с аудиовходами, Transcribe предлагает путь к транскрипции производственного уровня без проблем с размещением данных и задержкой, характерных для закрытых API.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Самостоятельно размещаемая система транскрипции для производственных конвейеров

Как Transcribe выглядит на фоне конкурентов

Подпишитесь, чтобы получать самые свежие новости!

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Самостоятельно размещаемая система транскрипции для производственных конвейеров

Как Transcribe выглядит на фоне конкурентов

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

В новых океанских заповедниках обитают молодые кораллы, которые даже спасаются от опасности

Квантовые вихри исполняют парный танец в ловушке, состоящей из света

Это наш Первый День благодарения за Искусственный интеллект?

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI