WAXAL: Крупномасштабный открытый ресурс для технологий распознавания речи на африканских языках.
WAXAL предоставляет важнейшую, открытую основу для африканских технологий распознавания речи. Благодаря большому корпусу данных автоматического распознавания речи и преобразования текста в речь для 27 родных языков, распространяемому под весьма либеральной лицензией, WAXAL позволяет африканской экосистеме искусственного интеллекта создавать надежные системы распознавания речи, которые лучше отражают уникальное языковое разнообразие региона.
Быстрые ссылки
- набор данных WAXAL
- Бумага
- Делиться
- Скопировать ссылку ×
Технологии с поддержкой голоса, такие как виртуальные помощники и автоматическая транскрипция, изменили наше взаимодействие с компьютерами. Однако их преимущества непропорционально достаются лишь немногим носителям языков с высоким уровнем развития. Этот разрыв оставил сотни миллионов людей — особенно в странах Африки к югу от Сахары, где говорят более чем на 2000 различных языках — без доступа к необходимым технологиям на своих родных языках. Несколько лет назад команда Google Research поставила перед собой задачу помочь решить эту проблему.

Посмотрите фильм
Ссылка на видео на YouTube
Для удовлетворения этой насущной потребности мы представляем WAXAL: крупномасштабный, открыто доступный набор данных о речи, который первоначально охватывает 27 языков стран Африки к югу от Сахары, на которых говорят более 100 миллионов человек в более чем 26 странах. Разработанный в результате многолетней работы, начавшейся в 2021 году, в сотрудничестве с африканскими академическими и общественными организациями, WAXAL предоставляет высококачественные данные с разрешительной лицензией, необходимые для создания надежных систем распознавания речи. Этот первый релиз, устанавливающий фундаментальный уровень, включает в себя приблизительно 1846 часов транскрибированной естественной речи для автоматического распознавания речи (ASR) и более 565 часов высококачественных записей для преобразования текста в речь (TTS). Мы выпускаем эти ресурсы под лицензией Creative Commons (CC-BY-4.0), чтобы стимулировать исследования и обеспечить инклюзивные голосовые технологии, адаптированные к уникальным лингвистическим особенностям континента. Мы планируем, что коллекция WAXAL будет постоянно развиваться и расширяться, включая дополнительные языки, в рамках наших постоянных усилий по преодолению цифрового разрыва.
Представляем WAXAL
Решая критическую проблему нехватки данных, охватывающих более 100 миллионов дикторов, WAXAL стремится расширить возможности региональной экосистемы исследований в области искусственного интеллекта. Для поддержки разработки надежных речевых технологий корпус объединяет два специализированных набора данных, предназначенных для обеспечения всестороннего охвата как задач распознавания, так и синтеза речи.
- WAXAL-ASR (Спонтанное понимание): Этот набор данных, содержащий приблизительно 1846 часов расшифрованных аудиозаписей, фиксирует естественную, не заготовленную речь. Вместо чтения сценариев участникам из разных социальных групп предлагалось описывать визуальные стимулы, охватывающие более 50 тем, на своем родном языке. Этот метод, основанный на использовании изображений, позволил зафиксировать аутентичные лингвистические вариации, включая тональные нюансы и переключение кодов. Этот метод позволил получить более естественную речь, чем традиционные методы.
Примеры из Google Open Images использовались в качестве подсказок для получения естественной речи в наборе данных ASR.
- WAXAL-TTS (High-Fidelity Generation): Этот набор данных, разработанный для создания естественно звучащих синтетических голосов, содержит более 565 часов высококачественного, фонетически сбалансированного аудио. Процесс сбора данных TTS был в значительной степени основан на сотрудничестве: члены местного сообщества работали в парах над составлением сценариев объемом 10 000–20 000 слов, поочередно выполняя роли чтеца и записывающего. Для обеспечения профессионального уровня акустики некоторые участники использовали средства проекта для создания специальных студийных боксов. Полученные записи затем были сегментированы, сопоставлены с текстом сценария и проверены на точность и качество.
Блок для записи TTS в Университете Ганы.
Двойная направленность корпуса WAXAL на неструктурированные данные автоматического распознавания речи (ASR) и высококачественные аудиоданные синтеза речи (TTS) призвана обеспечить разработку полнодуплексных разговорных систем. В частности, компонент ASR облегчает моделирование разнообразной, спонтанной речи, типичной для реальных ситуаций, в то время как высококачественный компонент TTS предоставляет чистые эталонные данные, необходимые для генерации четкого, естественного звучания. В таблице ниже перечислены 27 языков, в настоящее время включенных в набор данных:
Анализ текущего набора данных WAXAL, показывающий 27 исходных языков стран Африки к югу от Сахары и наличие данных автоматического распознавания речи (ASR) и преобразования текста в речь (TTS) для каждого из них.
Укрепление позиций в африканской экосистеме искусственного интеллекта
Ключевым моментом проекта WAXAL стало наше стремление сотрудничать с африканской экосистемой искусственного интеллекта и вносить в нее непосредственный вклад. Сбор данных полностью осуществлялся африканскими академическими и общественными организациями под руководством экспертов Google, специализирующихся на передовых методах сбора данных. Такой подход, основанный на сотрудничестве, гарантировал, что корпус создавался сообществом и для сообщества, которому он служит; благодаря общей методологии каждый партнер сосредоточился на определенном подмножестве языков. В число наших партнеров вошли Университет Макерере, который собрал данные ASR и/или TTS для девяти различных языков, и Университет Ганы, который сосредоточил свои усилия на восьми языках, используя описанную выше методологию сбора данных ASR на основе изображений. Дополнительными ключевыми партнерами были Digital Umuganda в партнерстве с Университетом Аддис-Абебы, которые сыграли важную роль в сборе данных ASR для нескольких региональных языков. Для высококачественной студийной записи голосов Media Trust, Loud n Clear и Африканский институт математических наук Сенегала возглавили запись TTS на различных региональных языках.
В основе этой структуры лежит принцип, согласно которому наши партнеры сохраняют право собственности на собранные данные в рамках общего обязательства сделать все наборы данных общедоступными для широкого сообщества. Такое тесное сотрудничество и философия открытого доступа уже позволили провести значительные исследования и опубликовать результаты в области производных технологий.
- Благодаря этой системе наши партнеры уже дали возможность проводить новые исследования, например, разработку руководства по сбору данных о нарушениях речи силами сообщества. В результате этого исследования был создан первый открытый набор данных для носителей языка акан с такими заболеваниями, как церебральный паралич и заикание, и было показано, что очное выявление речи с помощью изображений более эффективно, чем текстовые подсказки для этих групп населения. Эта работа предоставляет важную дорожную карту для разработки инклюзивных речевых технологий в условиях ограниченных ресурсов.
- Кроме того, в рамках этой инициативы было поддержано крупное исследование, в результате которого был создан 5000-часовой корпус речи для пяти ганских языков — акан, эве, дагбани, дагаре и икпосо. Эта работа позволила создать инфраструктуру для разработки надежных систем автоматического распознавания речи (ASR) и преобразования текста в речь (TTS), адаптированных к языковому разнообразию Западной Африки, с использованием контролируемого краудсорсингового подхода для захвата естественных, спонтанных интонаций.
- Другие важные исследования были посвящены сравнительной оценке четырех передовых моделей (Whisper, XLS-R, MMS и W2v-BERT) на 13 африканских языках. В этом исследовании анализировалось, как производительность масштабируется с увеличением объема обучающих данных, что позволило получить важные сведения об эффективности данных и подчеркнуть, что преимущества масштабирования в значительной степени зависят от лингвистической сложности и соответствия предметной области.
- Наконец, был опубликован систематический обзор литературы, каталогизирующий 74 набора данных по 111 африканским языкам, чтобы определить современные границы речевых технологий. В этом обзоре подчеркивалась острая необходимость в многодоменных корпусах разговорной речи и внедрении лингвистически обоснованных метрик, таких как частота ошибок распознавания символов (CER), для более точной оценки производительности в морфологически богатых и тональных языковых контекстах.
Заключение и дальнейшие направления
WAXAL представляет собой важную веху в преодолении цифрового разрыва, предлагая высококачественный, открытый ресурс речевых данных для 27 языков стран Африки к югу от Сахары. Разработанная в тесном сотрудничестве с африканскими академическими и общественными организациями, эта инициатива расширяет возможности экосистемы искусственного интеллекта на континенте и сохраняет языковое разнообразие. Мы надеемся, что WAXAL продолжит служить важным ресурсом для цифрового сохранения африканских языков и основой для будущих инноваций. Google по-прежнему привержен этой работе и планирует постоянно расширять набор данных WAXAL.
Благодарности
Мы благодарны нашим партнерам из Университета Макерере, Университета Ганы, организации Digital Umuganda, Университета Аддис-Абебы, Африканского института математических наук Сенегала, Media Trust и Loud and Clear Communications Ltd за их существенный вклад в сокращение языкового барьера и построение более инклюзивного цифрового будущего для миллионов носителей языка на всем африканском континенте.
Источник: research.google
Похожие записи
Похожие записи
Google представила интеграцию медицинских записей в приложение Fitbit на мероприятии Check Up
15.05.2026
Исследование Лаборатории трансляционной инженерии Джованни Траверсо: инновации в доставке лекарств
03.12.2025
Ученые получили молекулярный термометр с рекордной точностью
06.03.2026Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
