• Главная
  • Архив рубрики ~Лента новостей~
  • Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.
Image

Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.

Эмилия Давид

crimedy7 иллюстрация робота, расшифровывающего запись совещания --ar cca420ed-5206-436c-8e98-8eb21595bd8e 1

Источник: VentureBeat, сгенерировано с помощью MidJourney

Предприятия, создающие рабочие процессы с голосовым управлением, имели ограниченные возможности для транскрипции производственного уровня: закрытые API с рисками хранения данных или открытые модели, которые жертвуют точностью ради удобства развертывания. Новая модель автоматического распознавания речи Cohere, Transcribe, разработана для конкуренции по всем четырем ключевым параметрам — контекстной точности, задержке, управляемости и стоимости.

По словам Кохера, Transcribe превосходит нынешних лидеров по точности, и, в отличие от закрытых API, может работать на собственной инфраструктуре организации.

Cohere, доступ к которому можно получить через API или в хранилище моделей Cohere под номером cohere-transcribe-03-2026, имеет 2 миллиарда параметров и распространяется под лицензией Apache-2.0. Компания заявила, что Transcribe имеет средний показатель ошибок распознавания слов (WER) всего 5,42%, то есть он допускает меньше ошибок, чем аналогичные модели.

Модель обучена на 14 языках: английском, французском, немецком, итальянском, испанском, греческом, голландском, польском, португальском, китайском, японском, корейском, вьетнамском и арабском. Компания не уточнила, на каком именно диалекте китайского языка была обучена модель.

Компания Cohere заявила, что обучала модель «с целенаправленным стремлением минимизировать WER, одновременно уделяя первостепенное внимание готовности к эксплуатации». По словам Cohere, в результате получилась модель, которую предприятия могут напрямую интегрировать в системы автоматизации на основе голосового управления, конвейеры транскрипции и рабочие процессы аудиопоиска.

Самостоятельно размещаемая система транскрипции для производственных конвейеров

До недавнего времени корпоративная транскрипция представляла собой компромисс: закрытые API обеспечивали точность, но ограничивали доступ к данным; открытые модели предлагали контроль, но отставали по производительности. В отличие от Whisper, который был запущен как исследовательская модель под лицензией MIT, Transcribe доступен для коммерческого использования с момента выпуска и может работать на собственной локальной инфраструктуре графических процессоров организации. Первые пользователи отметили, что готовый к коммерческому использованию подход с открытыми весами является перспективным для корпоративных развертываний.

Организации могут использовать Transcribe на своих локальных экземплярах, поскольку, по словам Cohere, модель имеет более управляемый объем вычислительных ресурсов для локальных графических процессоров. Компания заявила, что смогла это сделать, потому что модель «расширяет границу Парето, обеспечивая высочайшую точность (низкий WER) при сохранении лучшей в своем классе пропускной способности (высокий RTFx) в группе моделей с более чем 1 миллиардом параметров».

Как Transcribe выглядит на фоне конкурентов

Transcribe превзошла таких признанных лидеров в области распознавания речи, как Whisper от OpenAI, лежащий в основе голосовой функции ChatGPT, и ElevenLabs, используемую многими крупными розничными брендами. В настоящее время она лидирует в рейтинге Hugging Face ASR , опережая Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%) и Qwen3-ASR-1.7B (5,76%).

На основе других наборов данных, протестированных Hugging Face, Transcribe также показал хорошие результаты. На наборе данных AMI, измеряющем понимание разговоров на совещаниях и анализ диалогов, Transcribe набрал 8,15%. На наборе данных Voxpopuli, проверяющем понимание различных акцентов, модель набрала 5,87%, уступив только Zoom Scribe.

Первые пользователи отметили точность и локальное развертывание как наиболее важные факторы — особенно для команд, которые ранее передавали аудиоданные через внешние API и хотят перенести эту задачу внутрь компании.

Для инженерных групп, создающих конвейеры обработки RAG-сигналов или рабочие процессы агентов с аудиовходами, Transcribe предлагает путь к транскрипции производственного уровня без проблем с размещением данных и задержкой, характерных для закрытых API.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: API, Cohere, Модель, новости, Распознавание, Речь

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Мужчина в очках и с короткой стрижкой сидит рядом с окном и наслаждается солнечным светом.
Карта памяти SanDisk Extreme PRO 2TB на столе перед черным кейсом.
Космонавт работает на борту космической станции, окружённый оборудованием и проводами.
Древний океан с причудливыми существами эдиакарского периода на дне.
Капли дождя падают на землю, образуя брызги на мокрой почве.
Капли дождя падают на землю, создавая брызги на мокрой почве.
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.
Робот-гуманоид Tesla с черной головой и белым туловищем на фоне.
Два персонажа сражаются световыми мечами на темном фоне сцены из фильма.
Image Not Found
Мужчина в очках и с короткой стрижкой сидит рядом с окном и наслаждается солнечным светом.

Как сохранить молодость и увеличить продолжительность жизни?!

Вопрос сохранения молодости и увеличения продолжительности жизни — это, наверное, одна из главных целей современной науки и философии. Сейчас мы подходим к этому не с точки зрения магии, а с точки зрения биохакинга, доказательной медицины и понимания…

Апр 9, 2026
Карта памяти SanDisk Extreme PRO 2TB на столе перед черным кейсом.

Карта памяти SanDisk Extreme Pro UHS-II на 2 Тбайта оценена в $2000

SanDisk незаметно выпустила более ёмкостную версию своей карты памяти Extreme Pro UHS-II, но привлекла она внимание не возможностями, которые мы всё же затронем, а ценником, который выглядит крайне неприятно. Согласно страничке на Amazon, новинка имеет интерфейс SDXC…

Апр 9, 2026
Вид на Землю из космоса через иллюминатор с силуэтом наблюдающего человека.

Сегодня астронавты миссии «Артемида-2» установят новый рекорд расстояния от Земли.

Во время полета космического корабля «Орион» вокруг Луны экипаж «Артемиды II» побьет рекорд, установленный «Аполлоном-13» в 1970 году. Эндрю Лишевски, старший репортер отдела новостей. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и…

Апр 9, 2026
Археологическая находка: каменная гробница и скелет в древнем сооружении.

Исследование древнего индивида из Переславля-Залесского указало на его генетически смешанное происхождение

саркофаг V и погребение: А – вид с востока; Б – саркофаг V после снятия погребения и поздней плиты, вид сверху. © ИОГен РАН Археогенетическое исследование погребения из саркофага XIV-XV века в Спасо-Преображенском соборе в Переславле-Залесском показало,…

Апр 9, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых