• Главная
  • Архив рубрики ~Лента новостей~
  • Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.
Image

Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.

Эмилия Давид

crimedy7 иллюстрация робота, расшифровывающего запись совещания --ar cca420ed-5206-436c-8e98-8eb21595bd8e 1

Источник: VentureBeat, сгенерировано с помощью MidJourney

Предприятия, создающие рабочие процессы с голосовым управлением, имели ограниченные возможности для транскрипции производственного уровня: закрытые API с рисками хранения данных или открытые модели, которые жертвуют точностью ради удобства развертывания. Новая модель автоматического распознавания речи Cohere, Transcribe, разработана для конкуренции по всем четырем ключевым параметрам — контекстной точности, задержке, управляемости и стоимости.

По словам Кохера, Transcribe превосходит нынешних лидеров по точности, и, в отличие от закрытых API, может работать на собственной инфраструктуре организации.

Cohere, доступ к которому можно получить через API или в хранилище моделей Cohere под номером cohere-transcribe-03-2026, имеет 2 миллиарда параметров и распространяется под лицензией Apache-2.0. Компания заявила, что Transcribe имеет средний показатель ошибок распознавания слов (WER) всего 5,42%, то есть он допускает меньше ошибок, чем аналогичные модели.

Модель обучена на 14 языках: английском, французском, немецком, итальянском, испанском, греческом, голландском, польском, португальском, китайском, японском, корейском, вьетнамском и арабском. Компания не уточнила, на каком именно диалекте китайского языка была обучена модель.

Компания Cohere заявила, что обучала модель «с целенаправленным стремлением минимизировать WER, одновременно уделяя первостепенное внимание готовности к эксплуатации». По словам Cohere, в результате получилась модель, которую предприятия могут напрямую интегрировать в системы автоматизации на основе голосового управления, конвейеры транскрипции и рабочие процессы аудиопоиска.

Самостоятельно размещаемая система транскрипции для производственных конвейеров

До недавнего времени корпоративная транскрипция представляла собой компромисс: закрытые API обеспечивали точность, но ограничивали доступ к данным; открытые модели предлагали контроль, но отставали по производительности. В отличие от Whisper, который был запущен как исследовательская модель под лицензией MIT, Transcribe доступен для коммерческого использования с момента выпуска и может работать на собственной локальной инфраструктуре графических процессоров организации. Первые пользователи отметили, что готовый к коммерческому использованию подход с открытыми весами является перспективным для корпоративных развертываний.

Организации могут использовать Transcribe на своих локальных экземплярах, поскольку, по словам Cohere, модель имеет более управляемый объем вычислительных ресурсов для локальных графических процессоров. Компания заявила, что смогла это сделать, потому что модель «расширяет границу Парето, обеспечивая высочайшую точность (низкий WER) при сохранении лучшей в своем классе пропускной способности (высокий RTFx) в группе моделей с более чем 1 миллиардом параметров».

Как Transcribe выглядит на фоне конкурентов

Transcribe превзошла таких признанных лидеров в области распознавания речи, как Whisper от OpenAI, лежащий в основе голосовой функции ChatGPT, и ElevenLabs, используемую многими крупными розничными брендами. В настоящее время она лидирует в рейтинге Hugging Face ASR , опережая Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%) и Qwen3-ASR-1.7B (5,76%).

На основе других наборов данных, протестированных Hugging Face, Transcribe также показал хорошие результаты. На наборе данных AMI, измеряющем понимание разговоров на совещаниях и анализ диалогов, Transcribe набрал 8,15%. На наборе данных Voxpopuli, проверяющем понимание различных акцентов, модель набрала 5,87%, уступив только Zoom Scribe.

Первые пользователи отметили точность и локальное развертывание как наиболее важные факторы — особенно для команд, которые ранее передавали аудиоданные через внешние API и хотят перенести эту задачу внутрь компании.

Для инженерных групп, создающих конвейеры обработки RAG-сигналов или рабочие процессы агентов с аудиовходами, Transcribe предлагает путь к транскрипции производственного уровня без проблем с размещением данных и задержкой, характерных для закрытых API.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: API, Cohere, Модель, новости, Распознавание, Речь

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Капли дождя падают на землю, образуя брызги на мокрой почве.
Капли дождя падают на землю, создавая брызги на мокрой почве.
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.
Робот-гуманоид Tesla с черной головой и белым туловищем на фоне.
Два персонажа сражаются световыми мечами на темном фоне сцены из фильма.
Археологическая находка: каменная гробница и скелет в древнем сооружении.
Автоматизация программирования на Python: конвейеры, графики и код.
Два человека пожимают руки на фоне синего логотипа компании.
Схематичное изображение человеческого мозга на фоне компьютерных технологий.
Image Not Found
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.

Сегодня астронавты миссии «Артемида-2» установят новый рекорд расстояния от Земли.

Во время полета космического корабля «Орион» вокруг Луны экипаж «Артемиды II» побьет рекорд, установленный «Аполлоном-13» в 1970 году. Эндрю Лишевски, старший репортер отдела новостей. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и…

Апр 9, 2026
Археологическая находка: каменная гробница и скелет в древнем сооружении.

Исследование древнего индивида из Переславля-Залесского указало на его генетически смешанное происхождение

саркофаг V и погребение: А – вид с востока; Б – саркофаг V после снятия погребения и поздней плиты, вид сверху. © ИОГен РАН Археогенетическое исследование погребения из саркофага XIV-XV века в Спасо-Преображенском соборе в Переславле-Залесском показало,…

Апр 9, 2026
Автоматизация программирования на Python: конвейеры, графики и код.

Создание рабочего процесса на Python, который выявляет ошибки до запуска в производство.

Использование современных инструментов для выявления дефектов на более ранних этапах жизненного цикла программного обеспечения. Делиться Python — один из тех языков, который позволяет почувствовать себя продуктивным практически мгновенно. В этом во многом и заключается его популярность. Переход…

Апр 9, 2026
Два человека пожимают руки на фоне синего логотипа компании.

Intel присоединяется к проекту Илона Маска по производству чипов Terafab.

Вкратце Источник изображения: Intel (откроется в новом окне) Компания Intel присоединится к SpaceX и Tesla в стремлении построить новый завод по производству полупроводников в США, в штате Техас, хотя масштабы ее вклада пока неясны. «Наша способность проектировать,…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых