Image

Meta* возвращается в мир open source с Omnilingual ASR — более мощного конкурента Whisper от OpenAI

a24a600014f909284ebcc04b372e06f5

Meta представила новую многоязычную систему автоматического распознавания речи (ASR), поддерживающую свыше 1600 языков. Для сравнения — открытая модель Whisper от OpenAI распознает лишь 99.

Более того, архитектура Omnilingual ASR позволяет разработчикам самостоятельно расширять поддержку — фактически до тысяч языков. Благодаря механизму «zero-shot» обучения в контексте (in-context learning) пользователю достаточно предоставить несколько примеров аудио и текста на новом языке во время работы модели, чтобы она смогла распознавать дальнейшие фразы без дополнительного обучения.

Дисклеймер: это вольная адаптция текста издания Venture Bear. Перевод подготовила редакция «Технократии». Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, а также делимся полезными мастридами и актуальными событиями.

Если у вас стоит задача интеграции ИИ в бизнес-процессы, то напишите нам.

Таким образом, потенциал системы охватывает более 5400 языков — практически все, для которых существует письменность. Это переход от статичных возможностей модели к гибкой платформе, которую могут адаптировать сами сообщества. 1600 языков — это официально обученный набор, но фактический потенциал модели намного шире: она способна обобщать данные и обучаться «на лету».

И самое важное — Meta открыла Omnilingual ASR под лицензией Apache 2.0, без ограничений и платных корпоративных условий, как это было с предыдущими релизами LLaMA. Исследователи и разработчики теперь могут использовать, адаптировать и внедрять модель бесплатно, в том числе в коммерческих проектах.

Новый комплект моделей, опубликованный 10 ноября на сайте Meta, в GitHub и на платформе Hugging Face, включает:

  • семейство моделей распознавания речи;

  • многоязычную модель представления аудио с 7 миллиардами параметров;

  • корпус записей более чем на 350 малоресурсных языках.

Все ресурсы доступны по открытым лицензиям, и модели работают из коробки в режиме «речь в текст».

Meta заявила в X (бывший Twitter): «Открывая эти модели и датасеты, мы стремимся разрушить языковые барьеры, расширить цифровой доступ и дать сообществам по всему миру новые инструменты».

Система для преобразования речи в текст

В основе Omnilingual ASR — преобразование устной речи в письменный текст. Модель предназначена для голосовых ассистентов, систем транскрибации, субтитров, цифровых архивов и инструментов доступности для языков с ограниченными ресурсами.

В отличие от ранних систем, которым требовались гигантские объемы размеченных данных, Omnilingual ASR содержит вариант с нулевым обучением — zero-shot. Он способен распознавать язык, которого модель никогда не «видела», используя всего несколько примеров аудио и текста. Это резко снижает порог для добавления новых и исчезающих языков, избавляя от необходимости собирать большие корпуса.

Архитектура и семейство моделей

Omnilingual ASR включает несколько линеек, обученных на 4,3 миллионах часов аудио на 1600+ языках:

  • wav2vec 2.0 — самообучающиеся модели представления речи (300 млн–7 млрд параметров);

  • CTC-модели — для эффективной супервизируемой транскрибации;

  • LLM-ASR — объединяют аудиоэнкодер и текстовый декодер на базе Transformer, обеспечивая точность уровня SOTA;

  • LLM-ZeroShot ASR — позволяет адаптироваться к новым языкам на этапе инференса.

Все модели построены по принципу «энкодер–декодер»: исходный аудиосигнал переводится в языконезависимое представление, а затем преобразуется в текст.

Почему масштаб имеет значение

Whisper и аналогичные модели хорошо работают с глобальными языками, но слабо охватывают редкие и региональные. Whisper поддерживает 99 языков, а Meta предлагает:

  • прямую поддержку более 1600 языков;

  • возможность расширения до 5400+ через in-context learning;

  • точность распознавания с ошибкой менее 10% для 78% языков.

Более 500 языков, по данным Meta, ранее не были представлены ни в одной ASR-модели. Это открывает новые возможности для сообществ, чьи языки традиционно остаются за пределами цифрового пространства.

Контекст: стратегия Meta в 2025 году и уроки Llama 4

Релиз Omnilingual ASR стал поворотным моментом в стратегии искусственного интеллекта Meta. После неудачного запуска Llama 4 в апреле 2025 года, получившего смешанные и в целом негативные отзывы, компания столкнулась с падением доверия и замедлением внедрения своих ИИ-продуктов в бизнес-среде.

После этого Марк Цукерберг назначил Александра Вана, сооснователя Scale AI, на должность Chief AI Officer и начал масштабный набор исследователей с рекордными компенсациями.

Omnilingual ASR стал символом «перезапуска» стратегии. Meta вернулась к своей сильной стороне — многоязычному ИИ, выпустив открытую, гибкую платформу с минимальными барьерами для исследователей и локальных сообществ.

Модель не только демонстрирует инженерную компетенцию компании, но и задает новый стандарт прозрачности: открытые лицензии, воспроизводимые протоколы обучения и публичные наборы данных.

Эта стратегия укладывается в обновленную концепцию Meta — «персональный суперинтеллект» и отказ от «метавселенной» в пользу фундаментальных AI-разработок.

Сообщество и сбор данных

Для достижения такого масштаба Meta объединилась с исследователями и локальными организациями в Африке, Азии и других регионах, создав корпус Omnilingual ASR Corpus — 3350 часов речи на 348 малоресурсных языках.

В проекте участвовали:

  • African Next Voices (Maseno University, University of Pretoria, Data Science Nigeria, при поддержке Gates Foundation);

  • Mozilla Common Voice (через Open Multilingual Speech Fund);

  • Lanfrica / NaijaVoices, собравшие данные по 11 африканским языкам.

Речь записывалась в естественных условиях, на живые темы — от обсуждения семьи до дружбы. Расшифровка велась с учетом локальных алфавитов и орфографических стандартов.

Производительность и оборудование

Крупнейшая модель omniASR_LLM_7B требует около 17 ГБ видеопамяти и подходит для мощных GPU.
Младшие модели (300M–1B) работают на менее производительных устройствах в режиме реального времени.

Тесты показали:

  • точность выше 90% для 95% высоко- и среднересурсных языков;

  • точность выше 90% для 36% малоресурсных языков;

  • устойчивость к шуму и новым областям применения.

Zero-shot версия omniASR_LLM_7B_ZS позволяет транскрибировать новые языки, если предоставить несколько аудио-примеров с текстом.

Доступ и инструменты

Все модели и наборы данных распространяются под открытыми лицензиями:

  • Apache 2.0 — для моделей и кода;

  • CC-BY 4.0 — для корпуса на Hugging Face.

Установка через PyPI:

pip install omnilingual-asr

Meta также предоставляет интеграцию с HuggingFace, готовые пайплайны для инференса и управление языковыми кодами.

Пример вывода списка языков:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs print(len(supported_langs)) print(supported_langs)

Значение для бизнеса

Для компаний, работающих на многоязычных рынках, Omnilingual ASR снимает барьер внедрения систем распознавания речи.

Теперь вместо платных API с ограниченным числом языков можно использовать открытый стек, поддерживающий более 1600 языков из коробки и расширяемый до тысяч других.

Это особенно важно для секторов вроде клиентской поддержки, транскрибации, образования, гражданских сервисов и инклюзии, где локальные языки имеют стратегическое значение.

Omnilingual ASR знаменует сдвиг в парадигме ASR — от закрытых облачных решений к открытому сообществу, где каждая культура может добавить свой голос в цифровое пространство.

*Meta признана в России экстремистской организацией и запрещена

Источник: habr.com

✅ Найденные теги: Meta, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых