Image

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

a24a600014f909284ebcc04b372e06f5

Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99.

Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.

Дисклеймер: это вольная адаптция текста издания Venture Bear. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.

Таким образом, потенциал системы охватывает более 5400 языков — практически все, для которых существует письменность. Это переход от статичных возможностей модели к гибкой платформе, которую могут адаптировать сами сообщества. 1600 языков — это официально обученный набор, но фактический потенциал модели намного шире: она способна обобщать данные и обучаться «на лету».

И самое важное — Meta открыла Omnilingual ASR под лицензией Apache 2.0, без ограничений и платных корпоративных условий, как это было с предыдущими релизами LLaMA. Исследователи и разработчики теперь могут использовать, адаптировать и внедрять модель бесплатно, в том числе в коммерческих проектах.

Новый комплект моделей, опубликованный 10 ноября на сайте Meta, в GitHub и на платформе Hugging Face, включает:

  • семейство моделей распознавания речи;

  • многоязычную модель представления аудио с 7 миллиардами параметров;

  • корпус записей более чем на 350 малоресурсных языках.

Все ресурсы доступны по открытым лицензиям, и модели работают из коробки в режиме «речь в текст».

Meta заявила в X (бывший Twitter): «Открывая эти модели и датасеты, мы стремимся разрушить языковые барьеры, расширить цифровой доступ и дать сообществам по всему миру новые инструменты».

Система для преобразования речи в текст

В основе Omnilingual ASR — преобразование устной речи в письменный текст. Модель предназначена для голосовых ассистентов, систем транскрибации, субтитров, цифровых архивов и инструментов доступности для языков с ограниченными ресурсами.

В отличие от ранних систем, которым требовались гигантские объемы размеченных данных, Omnilingual ASR содержит вариант с нулевым обучением — zero-shot. Он способен распознавать язык, которого модель никогда не «видела», используя всего несколько примеров аудио и текста. Это резко снижает порог для добавления новых и исчезающих языков, избавляя от необходимости собирать большие корпуса.

Архитектура и семейство моделей

Omnilingual ASR включает несколько линеек, обученных на 4,3 миллионах часов аудио на 1600+ языках:

  • wav2vec 2.0 — самообучающиеся модели представления речи (300 млн–7 млрд параметров);

  • CTC-модели — для эффективной супервизируемой транскрибации;

  • LLM-ASR — объединяют аудиоэнкодер и текстовый декодер на базе Transformer, обеспечивая точность уровня SOTA;

  • LLM-ZeroShot ASR — позволяет адаптироваться к новым языкам на этапе инференса.

Все модели построены по принципу «энкодер–декодер»: исходный аудиосигнал переводится в языконезависимое представление, а затем преобразуется в текст.

Почему масштаб имеет значение

Whisper и аналогичные модели хорошо работают с глобальными языками, но слабо охватывают редкие и региональные. Whisper поддерживает 99 языков, а Meta предлагает:

  • прямую поддержку более 1600 языков;

  • возможность расширения до 5400+ через in-context learning;

  • точность распознавания с ошибкой менее 10% для 78% языков.

Более 500 языков, по данным Meta, ранее не были представлены ни в одной ASR-модели. Это открывает новые возможности для сообществ, чьи языки традиционно остаются за пределами цифрового пространства.

Контекст: стратегия Meta в 2025 году и уроки Llama 4

Релиз Omnilingual ASR стал поворотным моментом в стратегии искусственного интеллекта Meta. После неудачного запуска Llama 4 в апреле 2025 года, получившего смешанные и в целом негативные отзывы, компания столкнулась с падением доверия и замедлением внедрения своих ИИ-продуктов в бизнес-среде.

После этого Марк Цукерберг назначил Александра Вана, сооснователя Scale AI, на должность Chief AI Officer и начал масштабный набор исследователей с рекордными компенсациями.

Omnilingual ASR стал символом «перезапуска» стратегии. Meta вернулась к своей сильной стороне — многоязычному ИИ, выпустив открытую, гибкую платформу с минимальными барьерами для исследователей и локальных сообществ.

Модель не только демонстрирует инженерную компетенцию компании, но и задает новый стандарт прозрачности: открытые лицензии, воспроизводимые протоколы обучения и публичные наборы данных.

Эта стратегия укладывается в обновленную концепцию Meta — «персональный суперинтеллект» и отказ от «метавселенной» в пользу фундаментальных AI-разработок.

Сообщество и сбор данных

Для достижения такого масштаба Meta объединилась с исследователями и локальными организациями в Африке, Азии и других регионах, создав корпус Omnilingual ASR Corpus — 3350 часов речи на 348 малоресурсных языках.

В проекте участвовали:

  • African Next Voices (Maseno University, University of Pretoria, Data Science Nigeria, при поддержке Gates Foundation);

  • Mozilla Common Voice (через Open Multilingual Speech Fund);

  • Lanfrica / NaijaVoices, собравшие данные по 11 африканским языкам.

Речь записывалась в естественных условиях, на живые темы — от обсуждения семьи до дружбы. Расшифровка велась с учетом локальных алфавитов и орфографических стандартов.

Производительность и оборудование

Крупнейшая модель omniASR_LLM_7B требует около 17 ГБ видеопамяти и подходит для мощных GPU.
Младшие модели (300M–1B) работают на менее производительных устройствах в режиме реального времени.

Тесты показали:

  • точность выше 90% для 95% высоко- и среднересурсных языков;

  • точность выше 90% для 36% малоресурсных языков;

  • устойчивость к шуму и новым областям применения.

Zero-shot версия omniASR_LLM_7B_ZS позволяет транскрибировать новые языки, если предоставить несколько аудио-примеров с текстом.

Доступ и инструменты

Все модели и наборы данных распространяются под открытыми лицензиями:

  • Apache 2.0 — для моделей и кода;

  • CC-BY 4.0 — для корпуса на Hugging Face.

Установка через PyPI:

pip install omnilingual-asr

Meta также предоставляет интеграцию с HuggingFace, готовые пайплайны для инференса и управление языковыми кодами.

Пример вывода списка языков:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs print(len(supported_langs)) print(supported_langs)

Значение для бизнеса

Для компаний, работающих на многоязычных рынках, Omnilingual ASR снимает барьер внедрения систем распознавания речи.

Теперь вместо платных API с ограниченным числом языков можно использовать открытый стек, поддерживающий более 1600 языков из коробки и расширяемый до тысяч других.

Это особенно важно для секторов вроде клиентской поддержки, транскрибации, образования, гражданских сервисов и инклюзии, где локальные языки имеют стратегическое значение.

Omnilingual ASR знаменует сдвиг в парадигме ASR — от закрытых облачных решений к открытому сообществу, где каждая культура может добавить свой голос в цифровое пространство.

*Meta признана в России экстремистской организацией и запрещена

Источник: habr.com

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых