Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Модель распознавания речи Cohere с открытыми весами достигает показателя ошибок распознавания слов в 5,4% — достаточно низкого уровня, чтобы заменить API распознавания речи в производственных процессах.

Эмилия Давид

crimedy7 иллюстрация робота, расшифровывающего запись совещания --ar cca420ed-5206-436c-8e98-8eb21595bd8e 1

Источник: VentureBeat, сгенерировано с помощью MidJourney

Предприятия, создающие рабочие процессы с голосовым управлением, имели ограниченные возможности для транскрипции производственного уровня: закрытые API с рисками хранения данных или открытые модели, которые жертвуют точностью ради удобства развертывания. Новая модель автоматического распознавания речи Cohere, Transcribe, разработана для конкуренции по всем четырем ключевым параметрам — контекстной точности, задержке, управляемости и стоимости.

По словам Кохера, Transcribe превосходит нынешних лидеров по точности, и, в отличие от закрытых API, может работать на собственной инфраструктуре организации.

Cohere, доступ к которому можно получить через API или в хранилище моделей Cohere под номером cohere-transcribe-03-2026, имеет 2 миллиарда параметров и распространяется под лицензией Apache-2.0. Компания заявила, что Transcribe имеет средний показатель ошибок распознавания слов (WER) всего 5,42%, то есть он допускает меньше ошибок, чем аналогичные модели.

Модель обучена на 14 языках: английском, французском, немецком, итальянском, испанском, греческом, голландском, польском, португальском, китайском, японском, корейском, вьетнамском и арабском. Компания не уточнила, на каком именно диалекте китайского языка была обучена модель.

Компания Cohere заявила, что обучала модель «с целенаправленным стремлением минимизировать WER, одновременно уделяя первостепенное внимание готовности к эксплуатации». По словам Cohere, в результате получилась модель, которую предприятия могут напрямую интегрировать в системы автоматизации на основе голосового управления, конвейеры транскрипции и рабочие процессы аудиопоиска.

Самостоятельно размещаемая система транскрипции для производственных конвейеров

До недавнего времени корпоративная транскрипция представляла собой компромисс: закрытые API обеспечивали точность, но ограничивали доступ к данным; открытые модели предлагали контроль, но отставали по производительности. В отличие от Whisper, который был запущен как исследовательская модель под лицензией MIT, Transcribe доступен для коммерческого использования с момента выпуска и может работать на собственной локальной инфраструктуре графических процессоров организации. Первые пользователи отметили, что готовый к коммерческому использованию подход с открытыми весами является перспективным для корпоративных развертываний.

Организации могут использовать Transcribe на своих локальных экземплярах, поскольку, по словам Cohere, модель имеет более управляемый объем вычислительных ресурсов для локальных графических процессоров. Компания заявила, что смогла это сделать, потому что модель «расширяет границу Парето, обеспечивая высочайшую точность (низкий WER) при сохранении лучшей в своем классе пропускной способности (высокий RTFx) в группе моделей с более чем 1 миллиардом параметров».

Как Transcribe выглядит на фоне конкурентов

Transcribe превзошла таких признанных лидеров в области распознавания речи, как Whisper от OpenAI, лежащий в основе голосовой функции ChatGPT, и ElevenLabs, используемую многими крупными розничными брендами. В настоящее время она лидирует в рейтинге Hugging Face ASR , опережая Whisper Large v3 (7,44%), ElevenLabs Scribe v2 (5,83%) и Qwen3-ASR-1.7B (5,76%).

На основе других наборов данных, протестированных Hugging Face, Transcribe также показал хорошие результаты. На наборе данных AMI, измеряющем понимание разговоров на совещаниях и анализ диалогов, Transcribe набрал 8,15%. На наборе данных Voxpopuli, проверяющем понимание различных акцентов, модель набрала 5,87%, уступив только Zoom Scribe.

Первые пользователи отметили точность и локальное развертывание как наиболее важные факторы — особенно для команд, которые ранее передавали аудиоданные через внешние API и хотят перенести эту задачу внутрь компании.

Для инженерных групп, создающих конвейеры обработки RAG-сигналов или рабочие процессы агентов с аудиовходами, Transcribe предлагает путь к транскрипции производственного уровня без проблем с размещением данных и задержкой, характерных для закрытых API.

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

✅ Найденные теги: API, Cohere, Модель, новости, Распознавание, Речь

Добавить комментарий

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Что у SpaceX с патентным портфелем перед IPO? Архив рубрики ~Лента новостей~: Инфляция оценок сходит с ума, поскольку каждый студент по сути сдает одно и то же эссе Архив рубрики ~Лента новостей~: В соцсетях завирусился ролик с «работниками фабрик в Индии» с камерами на головах — снятые видео, предположительно, используют для обучения роботов Архив рубрики ~Лента новостей~: Представляем CodeMender: агент искусственного интеллекта для обеспечения безопасности кода. Архив рубрики ~Лента новостей~: Представляем CodeMender: агент искусственного интеллекта для обеспечения безопасности кода. Архив рубрики ~Лента новостей~: Я хотел повторить Growing Neural CA за вечер. Ушёл месяц Архив рубрики ~Лента новостей~: Более 1,1 миллиарда людей пострадали от психических расстройств в 2023 году. Общее число случаев увеличилось почти вдвое за последние 33 года Архив рубрики ~Лента новостей~: Маск заявляет, что американские военные беспилотники-камикадзе использовали Starlink в нарушение правил SpaceX.