• Главная
  • Архив рубрики ~Лента новостей~
  • Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.
Image

Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.

Эмилия Давид

crimedy7 иллюстрация робота, расшифровывающего запись совещания --ar cca420ed-5206-436c-8e98-8eb21595bd8e 1

Источник: VentureBeat, сгенерировано с помощью MidJourney

Предприятия, создающие рабочие процессы с голосовым управлением, имели ограниченные возможности для транскрипции производственного уровня: закрытые API с рисками хранения данных или открытые модели, которые жертвуют точностью ради удобства развертывания. Новая модель автоматического распознавания речи Cohere, Transcribe, разработана для конкуренции по всем четырем ключевым параметрам — контекстной точности, задержке, управляемости и стоимости.

По словам Кохера, Transcribe превосходит нынешних лидеров по точности, и, в отличие от закрытых API, может работать на собственной инфраструктуре организации.

Cohere, доступ к которому можно получить через API или в хранилище моделей Cohere под номером cohere-transcribe-03-2026, имеет 2 миллиарда параметров и распространяется под лицензией Apache-2.0. Компания заявила, что Transcribe имеет средний показатель ошибок распознавания слов (WER) всего 5,42%, то есть он допускает меньше ошибок, чем аналогичные модели.

Модель обучена на 14 языках: английском, французском, немецком, итальянском, испанском, греческом, голландском, польском, португальском, китайском, японском, корейском, вьетнамском и арабском. Компания не уточнила, на каком именно диалекте китайского языка была обучена модель.

Компания Cohere заявила, что обучала модель «с целенаправленным стремлением минимизировать WER, одновременно уделяя первостепенное внимание готовности к эксплуатации». По словам Cohere, в результате получилась модель, которую предприятия могут напрямую интегрировать в системы автоматизации на основе голосового управления, конвейеры транскрипции и рабочие процессы аудиопоиска.

Самостоятельно размещаемая система транскрипции для производственных конвейеров

До недавнего времени корпоративная транскрипция представляла собой компромисс: закрытые API обеспечивали точность, но ограничивали доступ к данным; открытые модели предлагали контроль, но отставали по производительности. В отличие от Whisper, который был запущен как исследовательская модель под лицензией MIT, Transcribe доступен для коммерческого использования с момента выпуска и может работать на собственной локальной инфраструктуре графических процессоров организации. Первые пользователи отметили, что готовый к коммерческому использованию подход с открытыми весами является перспективным для корпоративных развертываний.

Организации могут использовать Transcribe на своих локальных экземплярах, поскольку, по словам Cohere, модель имеет более управляемый объем вычислительных ресурсов для локальных графических процессоров. Компания заявила, что смогла это сделать, потому что модель «расширяет границу Парето, обеспечивая высочайшую точность (низкий WER) при сохранении лучшей в своем классе пропускной способности (высокий RTFx) в группе моделей с более чем 1 миллиардом параметров».

Как Transcribe выглядит на фоне конкурентов

Transcribe превзошла таких признанных лидеров в области распознавания речи, как Whisper от OpenAI, лежащий в основе голосовой функции ChatGPT, и ElevenLabs, используемую многими крупными розничными брендами. В настоящее время она лидирует в рейтинге Hugging Face ASR , опережая Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%) и Qwen3-ASR-1.7B (5,76%).

На основе других наборов данных, протестированных Hugging Face, Transcribe также показал хорошие результаты. На наборе данных AMI, измеряющем понимание разговоров на совещаниях и анализ диалогов, Transcribe набрал 8,15%. На наборе данных Voxpopuli, проверяющем понимание различных акцентов, модель набрала 5,87%, уступив только Zoom Scribe.

Первые пользователи отметили точность и локальное развертывание как наиболее важные факторы — особенно для команд, которые ранее передавали аудиоданные через внешние API и хотят перенести эту задачу внутрь компании.

Для инженерных групп, создающих конвейеры обработки RAG-сигналов или рабочие процессы агентов с аудиовходами, Transcribe предлагает путь к транскрипции производственного уровня без проблем с размещением данных и задержкой, характерных для закрытых API.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: API, Cohere, Модель, новости, Распознавание, Речь

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Изображение ДНК и мозга на цветном фоне, символизирующее генетические исследования.
Компания Route 92 Medical привлекла 50 миллионов долларов для поддержки своей стратегии роста.
Интерфейс приложения для общения на экране смартфонов.
Коробчатые диаграммы данных для субъектов 1-4, сравнение значений.
От складывания коробок до ремонта пылесосов, роботизированная модель GEN-1 демонстрирует 99% надежность.
Ноутбук и смартфон с интерфейсом ChatGPT на фиолетовом фоне.
ideipro logotyp
ideipro logotyp
Женщина в свитере с телефоном, стол с калькулятором и бумагами, кофейный стакан.
Image Not Found
Изображение ДНК и мозга на цветном фоне, символизирующее генетические исследования.

Генная мутация может застревать в мозге пациентов с шизофренией в искаженной реальности.

Генная мутация, связанная с шизофренией, может нарушать способность мозга адаптироваться к новой информации, что приводит к ригидному, устаревшему мышлению. Изображение: Shutterstock Одной из распространенных особенностей шизофрении является трудность в использовании новой информации для понимания окружающего мира. Эта…

Апр 8, 2026
Компания Route 92 Medical привлекла 50 миллионов долларов для поддержки своей стратегии роста.

Компания Route 92 Medical привлекла 50 миллионов долларов для поддержки своей стратегии роста.

В портфолио нейроваскулярных решений Route 92 входит система реперфузии HiPoint для лечения острого ишемического инсульта. Фото: mi_viri / Shutterstock.com. Компания Route 92 Medical привлекла 50 миллионов долларов финансирования для поддержки следующего этапа своей стратегии развития. В раунде…

Апр 8, 2026
Интерфейс приложения для общения на экране смартфонов.

STAT+: Компания Jimini Health привлекла финансирование для разработки чат-бота на основе искусственного интеллекта, предназначенного для оказания комплексной помощи в области психического здоровья.

Стартап, привлекший 17 миллионов долларов инвестиций, стремится поддержать поставщиков услуг, а не заменить их. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Джимини Здоровье Чат-боты могут общаться как терапевты, но стоит…

Апр 8, 2026
Коробчатые диаграммы данных для субъектов 1-4, сравнение значений.

Массовое распространение азитромицина и антибиотикорезистентность в кишечнике и носоглотке: кластерное рандомизированное исследование.

Абстрактный Повторное полугодовое массовое применение азитромицина у детей показало свою эффективность в снижении общей детской смертности. Однако устойчивость к антибиотикам является серьезной проблемой общественного здравоохранения, поскольку эта программа реализуется в странах Африки к югу от Сахары. В…

Апр 8, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых