Новая система оценки слухового интеллекта – MSEB: измерение возможностей AI по обработке звука
Massive Sound Embedding Benchmark (MSEB) — это окончательная платформа с открытым исходным кодом для измерения машинного интеллекта в области звука, объединяющая восемь основных возможностей — от поиска и классификации до реконструкции — для продвижения исследований за пределы текущего потолка производительности искусственного интеллекта на основе звука.
Быстрые ссылки
- Документ MSEB
- Контрольный показатель MSEB
- Набор данных простых голосовых вопросов
- Делиться
Звук является важнейшей частью мультимодального восприятия. Для того чтобы система — будь то голосовой помощник, система видеонаблюдения нового поколения или автономный агент — вела себя естественно, она должна демонстрировать полный спектр слуховых возможностей. Эти возможности включают транскрипцию, классификацию, поиск, рассуждения, сегментацию, кластеризацию, переранжирование и реконструкцию.
Эти разнообразные функции основаны на преобразовании исходного звука в промежуточное представление, или встраивание. Однако исследования по улучшению слуховых возможностей моделей мультимодального восприятия носят фрагментарный характер, и остаются важные вопросы без ответа: как сравнивать производительность в таких областях, как человеческая речь и биоакустика? Какой истинный потенциал производительности мы упускаем? И может ли единое универсальное встраивание звука служить основой для всех этих возможностей?
Для исследования этих вопросов и ускорения прогресса в создании надежного машинного звукового интеллекта мы разработали эталонный тест для встраивания массивов звука (MSEB), представленный на конференции NeurIPS 2025.
MSEB обеспечивает необходимую структуру для ответа на эти вопросы путем:
- Стандартизация оценки для всеобъемлющего набора из восьми реальных возможностей, которыми, по нашему мнению, должна обладать каждая человекоподобная интеллектуальная система.
- Предоставляется открытая и расширяемая платформа, позволяющая исследователям беспрепятственно интегрировать и оценивать любые типы моделей — от традиционных одномодальных моделей до каскадных моделей и сквозных многомодальных моделей встраивания.
- Установление четких целей по результативности для объективного выявления исследовательских возможностей, выходящих за рамки современных передовых подходов.
Наши первоначальные эксперименты подтверждают, что существующие представления звука далеко не универсальны, выявляя существенный «запас производительности» (т.е. максимально возможное улучшение) во всех восьми задачах.
Три столпа MSEB: единая структура
MSEB основан на трех фундаментальных принципах, призванных предоставить сообществу инструменты, необходимые для создания моделей нового поколения, обеспечивающих надежное понимание процессов.
1. Разнообразные наборы данных для реальных сценариев.
Эффективность эталонного теста зависит от качества его данных. MSEB включает в себя тщательно отобранную коллекцию доступных наборов данных, которые лучше отражают разнообразие нашего глобального сообщества пользователей. Краеугольным камнем нашего эталонного теста является набор данных Simple Voice Questions (SVQ), новый ресурс, содержащий 177 352 коротких устных запроса на 26 языках и в 17 языковых средах. Эти записи были сделаны в четырех различных акустических условиях (чистая среда, фоновый шум, шум дорожного движения и шум от медиафайлов) и содержат подробные метаданные об атрибутах говорящего и синхронизированные по времени ключевые термины. Мы собрали и опубликовали этот ресурс в открытом доступе на Hugging Face.
MSEB также интегрирует высококачественные общедоступные наборы данных, охватывающие различные звуковые области:
- Speech-MASSIVE: Для многоязычного понимания устной речи и классификации намерений.
- FSD50K: Большой набор данных для распознавания событий, связанных с окружающими звуками, с несколькими метками (200 классов из онтологии AudioSet).
- BirdSet: Масштабный эталонный набор данных для изучения биоакустики птиц, включающий сложные записи звукового ландшафта.
Мы активно работаем над созданием и добавлением в MSEB более релевантных и масштабных наборов данных. Мы приглашаем сообщество делиться своими предложениями и выражать заинтересованность в сотрудничестве через наш репозиторий на GitHub.
2. Полный набор из восьми основных возможностей.
В основе MSEB лежит предположение, что будущее взаимодействия со звуком на основе ИИ — за мультимодальным подходом. В каждой задаче звук используется в качестве важнейшего входного параметра, но также включается информация из других модальностей (например, текстовый контекст или базы знаний) для моделирования реалистичных сценариев.
Структура MSEB основана на восьми основных «суперзадачах», то есть задачах, представляющих собой возможности, жизненно важные для интеллектуальной системы:
- Поиск информации (голосовой поиск) : имитирует голосовой поиск, находя релевантные документы или фрагменты текста в базе знаний на основе произнесенного запроса.
- Логическое мышление (интеллектуальные помощники) : проверяет способность находить точный ответ в заданном документе или отрывке текста на основе устного вопроса.
- Классификация (мониторинг/безопасность) : Классифицирует звуки на основе характеристик говорящего, намерений пользователя, условий записи или конкретных звуковых событий.
- Транскрипция : Преобразует аудиосигнал в дословное текстовое представление (подобно автоматическому распознаванию речи, или ASR, для разговорной речи).
- Сегментация (индексирование) : определяет наиболее важные термины в звуковом фрагменте и локализует их с указанием точного времени начала и окончания.
- Кластеризация (организация) : Группирует набор звуковых сэмплов на основе общих атрибутов (таких как личность говорящего или окружение) без использования предопределенных меток.
- Переранжирование (уточнение гипотез) : Изменяет порядок списка неоднозначных текстовых гипотез (например, результатов автоматического распознавания речи), чтобы он лучше соответствовал исходному голосовому запросу.
- Реконструкция (генеративный ИИ) : проверяет качество встраивания, измеряя точность, с которой исходная звуковая волна может быть восстановлена из него.
Задачи MSEB варьируются от доступа к информации (поиск, переранжирование, рассуждения) до фундаментального восприятия (классификация, транскрипция, сегментация) и формирования организации более высокого уровня (кластеризация, реконструкция).
Дальнейшее развитие сосредоточено на практических, мультимодальных задачах в новых областях, таких как музыка или сочетание с изображениями.
3. Надежная система оценки и базовые показатели запаса прочности.
Основная цель MSEB — установить надежные базовые показатели и выявить потенциал роста существующих моделей ИИ путем их оценки в двух основных категориях задач:
- Семантический анализ (например, голосовой поиск, логическое мышление) : Правильно ли модели понимают значение и смысл произнесенных слов, даже при наличии шума в аудиозаписи?
- Акустические аспекты (например, классификация, кластеризация) : Точно ли модели определяют, кто говорит или какой звук окружает, независимо от смысла?
Библиотека MSEB, не зависящая от конкретной модели, разработана для оценки широкого спектра моделей — от каскадных систем до новых сквозных аудиокодеров — в рамках стандартизированной сравнительной модели.
Методология сравнения
Мы использовали фреймворк MSEB для тестирования производительности существующих моделей встраивания звука, чтобы определить, насколько близки эти модели к тому, чтобы быть по-настоящему интеллектуальными и универсальными.
Для семантических задач модели сравнивались с эталонными текстовыми входными данными. Для несемантических задач модели сравнивались с лучшим из существующих специализированных решений, чтобы установить надежный базовый уровень производительности, который должна превзойти любая новая универсальная модель.
Основные ограничения существующих звуковых представлений
Результаты показывают, что существующие модели ИИ имеют измеримые недостатки по всем ключевым параметрам понимания звука, что демонстрирует необходимость в системе оценки, подобной MSEB.
Оценка моделей ИИ по ключевым задачам, проведенная MSEB, выявила существенные недостатки и возможности для улучшения. В качестве метрик для сравнения использовались MRR , F1 , mAP , ACC , WER , NDCG , VMeasure и FAD .
Данная оценка выявляет пять основных проблем, которые в настоящее время ограничивают возможности искусственного интеллекта в области обработки звука:
1. Семантические узкие места
В задачах, основанных на языковом содержании (поиск информации, рассуждения, переранжирование), этап автоматического распознавания речи неизменно и повсеместно ограничивает производительность, что приводит к потере семантической точности.
2. Несогласованные цели
Стандартная практика в области речевых технологий предполагает каскадную модель: транскрибирование речи в текст, а затем использование этого текста для всех последующих задач. Это принципиально неправильно, поскольку оптимизация осуществляется по неверному показателю. Компонент автоматического распознавания речи (ASR) обучается исключительно минимизации частоты ошибок распознавания слов, что серьезно противоречит потребностям реальных приложений, которые часто требуют максимизации релевантности, точности или способности к рассуждению выходных данных, независимо от идеальной транскрипции.
3. Неуниверсальность
Модели демонстрируют серьёзную ненадёжность, что означает, что их производительность резко варьируется в зависимости от языка. Системы хорошо работают только с основными, распространёнными языками. При тестировании на менее распространённых языках качество транскрипции резко падает, что приводит к критическим сбоям в задачах поиска, ранжирования и сегментации.
4. Недостаточная устойчивость
Качество восстановления звука резко ухудшается при наличии шума. При наличии фонового шума способность модели точно интерпретировать исходный звук и окружающую среду значительно снижается. Это создает наиболее сложные задачи для системы, подчеркивая ее трудности в обработке сложных, общих звуков окружающей среды, встречающихся в реальных условиях (например, в оживленном офисе или на шумной улице).
5. Излишняя сложность
Для простых задач, не требующих понимания смысла (например, определения говорящего), сложные, предварительно обученные модели ИИ, как ни странно, оказываются не лучше, чем простое использование исходного представления звуковых волн. Это часто приводит к тому, что разработчики тратят свои усилия на чрезмерно сложные модели, когда базовые данные работают ничуть не хуже.
Заключение
Результаты демонстрируют существенный разрыв в производительности существующих общих подходов, основанных на звуке, по всем восьми суперзадачам. Это повсеместное отставание от максимального потенциала, определенного этими ограничениями, подчеркивает острую необходимость в дополнительных исследованиях унифицированных и надежных звуковых представлений, которые могли бы сократить разрыв в машинном слуховом интеллекте.
Мы видим MSEB как динамично развивающуюся платформу для всего сообщества специалистов по обработке звука. Мы приглашаем вас внести свой вклад в это дело, используя MSEB для оценки собственных методов представления звука, добавляя новые задачи и наборы данных в бенчмарк, чтобы помочь ему расти, и присоединяясь к совместной работе по расширению границ возможного в области машинного интеллекта в области звука.
Благодарности
Руководителями этого проекта были Эхсан Вариани, Георг Хайгольд, Том Багби и Сирил Аллаузен. Авторы искренне благодарят всех, кто внес свой вклад в этот проект, чей важный вклад сделал его возможным. Мы особенно благодарны нашим коллегам Хави Абрахаму, Шанкару Кумару, Джи Ма, Майклу Райли, Сунилу Вемури и Трэвису Трекелю. Мы также хотели бы отметить тех, кто помог подготовить эту публикацию: Марка Симборга за его обширную редактуру, Кимберли Шведе за замечательные иллюстрации и Микки Вуртса за его ценную помощь.
Источник: research.google

Добавить комментарий
Для отправки комментария вам необходимо авторизоваться.