Цветные волнистые линии на темном фоне, образующие узор.

Преобразование речи в поиск (S2R): новый подход к голосовому поиску.

46090a9155a6b711d00f3dfafa58b0fd

Теперь голосовой поиск работает на основе нашего нового механизма преобразования речи в текст, который получает ответы непосредственно из вашего голосового запроса без предварительного преобразования его в текст, что обеспечивает более быстрый и надежный поиск для всех.

Быстрые ссылки

Поиск в интернете с помощью голоса существует уже давно и продолжает использоваться многими людьми, при этом базовые технологии быстро развиваются, позволяя расширять возможности его применения. Первоначальное решение Google для голосового поиска использовало автоматическое распознавание речи (ASR) для преобразования голосового ввода в текстовый запрос, а затем искало документы, соответствующие этому запросу. Однако проблема такого каскадного подхода заключается в том, что любые незначительные ошибки на этапе распознавания речи могут существенно изменить смысл запроса, приводя к неправильным результатам.

Например, представьте, что кто-то выполняет голосовой поиск в интернете по запросу «известная картина Эдварда Мунка «Крик»». Поисковая система использует типичный подход каскадного моделирования, сначала преобразуя голосовой запрос в текст с помощью автоматического распознавания речи (ASR), а затем передавая текст в поисковую систему. В идеале, ASR идеально расшифровывает запрос. Затем поисковая система получает правильный текст — «картина «Крик»» — и предоставляет релевантные результаты, такие как история картины, её значение и место её хранения. Однако что, если система ASR ошибочно принимает букву «м» в слове «крик» за букву «н»? Она неправильно интерпретирует запрос как «экранная живопись» и возвращает нерелевантные результаты о техниках экранной живописи вместо подробностей о шедевре Мунка.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Точность распознавания речи имеет решающее значение для голосового поиска. Посмотрите, что происходит, когда система правильно расшифровывает запрос, и как это происходит, когда она расшифровывает его неправильно.

Чтобы предотвратить подобные ошибки в системах веб-поиска, что если бы система могла напрямую сопоставлять речь с желаемым намерением поиска, полностью минуя текстовую транскрипцию?

Представляем технологию Speech-to-Retrieval (S2R). По своей сути, S2R — это технология, которая напрямую интерпретирует и извлекает информацию из устного запроса без промежуточного, и потенциально ошибочного, этапа создания идеальной текстовой расшифровки. Она представляет собой фундаментальный архитектурный и философский сдвиг в том, как машины обрабатывают человеческую речь. В то время как современные распространенные технологии голосового поиска сосредоточены на вопросе: «Какие слова были произнесены?», S2R предназначена для ответа на более важный вопрос: «Какая информация ищется?». В этой статье рассматривается существенный разрыв в качестве существующих решений голосового поиска и демонстрируется, как модель S2R готова его заполнить. Кроме того, мы публикуем в открытом доступе набор данных Simple Voice Questions (SVQ), представляющий собой коллекцию коротких аудиовопросов, записанных на 17 различных языках и в 26 языковых версиях, который мы использовали для оценки потенциала производительности S2R. Набор данных SVQ является частью нового бенчмарка Massive Sound Embedding Benchmark.

Оценка потенциала S2R

Когда традиционная система автоматического распознавания речи преобразует аудио в текстовую строку, она может потерять контекстные подсказки, которые могли бы помочь уточнить смысл (т.е., потеря информации). Если система неправильно интерпретирует аудио на раннем этапе, эта ошибка передается поисковой системе, которая, как правило, не имеет возможности ее исправить (т.е., распространение ошибки). В результате окончательный результат поиска может не отражать намерения пользователя.

Для исследования этой взаимосвязи мы провели эксперимент, имитирующий идеальную работу системы автоматического распознавания речи (ASR). Начали с того, что собрали репрезентативный набор тестовых запросов, отражающих типичный трафик голосового поиска. Важно отметить, что эти запросы затем были вручную расшифрованы людьми-аннотаторами, фактически создав сценарий «идеального ASR», где расшифровка является абсолютной истиной.

Затем мы создали две различные системы поиска для сравнения (см. диаграмму ниже):

  • Каскадная система автоматического распознавания речи (ASR) представляет собой типичную реальную схему, в которой речь преобразуется в текст системой автоматического распознавания речи (ASR), а затем этот текст передается в систему поиска.
  • Функция Cascade groundtruth имитирует «идеальную» каскадную модель, отправляя безупречный эталонный текст непосредственно в ту же самую систему поиска.

Полученные из обеих систем документы (каскадное автоматическое распознавание речи и каскадная проверка достоверности) затем были представлены экспертам-оценщикам, или «рейтерам», вместе с исходным запросом. Перед оценщиками стояла задача сравнить результаты поиска из обеих систем, предоставив субъективную оценку их качества.

Для оценки качества автоматического распознавания речи (ASR) мы используем показатель частоты ошибок распознавания слов (WER), а для оценки эффективности поиска — средний обратный ранг (MRR) — статистический показатель для оценки любого процесса, который выдает список возможных ответов на выборку запросов, упорядоченных по вероятности правильности и вычисляемых как среднее значение обратных величин ранга первого правильного ответа по всем запросам. Разница в значениях MRR и WER между реальной системой и эталонной системой показывает потенциальные преимущества в производительности для некоторых из наиболее часто используемых языков голосового поиска в наборе данных SVQ (показано ниже).

SpeechToRetrieval3_WER

Показатель частоты ошибок распознавания слов (WER) модели автоматического распознавания речи (ASR) для различных языков голосового поиска в наборе данных SVQ.

SpeechToRetrieval4_MRRCurrent

Показатель MRR текущих реальных моделей («Cascade ASR»; синий) по сравнению с эталонными данными (т.е. идеальными; «Cascade Groundtruth»; зеленый).

Результаты этого сравнения приводят к двум важным наблюдениям. Во-первых, как видно из сравнения обеих диаграмм выше, мы обнаружили, что более низкий показатель WER не всегда приводит к более высокому показателю MRR на разных языках. Взаимосвязь сложная, что указывает на то, что влияние ошибок транскрипции на последующие задачи не полностью отражается метрикой WER. Специфика ошибки — а не просто её наличие — по-видимому, является критическим, зависящим от языка фактором. Во-вторых, и что более важно, существует значительная разница в показателе MRR между двумя системами на всех протестированных языках. Это выявляет существенный разрыв в производительности между существующими каскадными системами и тем, что теоретически возможно при идеальном распознавании речи. Этот разрыв демонстрирует явный потенциал моделей S2R для фундаментального улучшения качества голосового поиска.

Архитектура S2R: от звука к смыслу

В основе нашей модели S2R лежит архитектура с двумя кодировщиками. Эта конструкция включает в себя две специализированные нейронные сети, которые обучаются на больших объемах данных, чтобы понять взаимосвязь между речью и информацией. Аудиокодировщик обрабатывает необработанный аудиосигнал запроса, преобразуя его в подробное векторное представление, которое отражает его семантическое значение. Параллельно кодировщик документов обучается аналогичному векторному представлению для документов.

SpeechToRetrieval5_SimilarityLoss

Разница в потере сходства между встраиванием аудиофайлов и документов.

Ключ к успеху этой модели заключается в методе её обучения. Используя большой набор данных, состоящий из пар аудиозапросов и соответствующих документов, система учится одновременно корректировать параметры обоих кодировщиков.

Цель обучения заключается в том, чтобы вектор аудиозапроса был геометрически близок к векторам соответствующих документов в пространстве представлений. Такая архитектура позволяет модели обучаться чему-то более близкому к основному намерению, необходимому для поиска информации непосредственно в аудиозаписи, минуя хрупкий промежуточный этап транскрипции каждого слова, который является основным недостатком каскадной конструкции.

Как работает модель S2R

Когда пользователь произносит запрос, аудиопоток передается на предварительно обученный аудиокодер, который генерирует вектор запроса. Затем этот вектор используется для эффективного выявления наиболее релевантного набора результатов-кандидатов в нашем индексе посредством сложного процесса ранжирования результатов поиска.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Как S2R обрабатывает голосовой запрос.

Приведенная выше анимация иллюстрирует, как S2R понимает и отвечает на голосовой запрос. Все начинается с голосового запроса пользователя о картине «Крик». Аудиокодер преобразует звук в подробное аудиовстраивание — вектор, представляющий глубинный смысл запроса. Затем это встраивание используется для сканирования огромного индекса документов, выявляя первоначальных кандидатов с высокими показателями сходства, таких как страница Википедии о картине «Крик» (0,8) и веб-сайт Музея Мунка (0,7).

Но поиск релевантных документов — это только начало. Решающий заключительный этап координируется системой ранжирования результатов поиска. Этот мощный интеллектуальный инструмент выходит далеко за рамки первоначальных оценок, объединяя их с сотнями других сигналов для глубокого понимания релевантности и качества. Он взвешивает всю эту информацию за доли секунды, чтобы спланировать окончательный рейтинг, гарантируя, что пользователю будет представлена наиболее полезная и достоверная информация.

Оценка S2R

Мы оценили описанную выше систему S2R на наборе данных SVQ:

SpeechToRetrieval7_Results

Показатель MRR текущих моделей, работающих в реальных условиях («Cascade ASR»; синий) сравнивается с эталонными данными (т.е. идеальными; «Cascade Groundtruth»; зеленый) и производительностью модели S2R («S2R»; оранжевый столбик).

На графике производительности модели S2R (оранжевая полоса) показаны два ключевых результата:

  • Она значительно превосходит базовую каскадную модель распознавания речи.
  • Его производительность приближается к верхнему пределу, установленному эталонной моделью каскада.

Несмотря на многообещающие перспективы, сохраняющийся пробел указывает на необходимость дальнейших исследований.

Новая эра голосового поиска началась!

Переход к голосовому поиску на основе технологии S2R — это не теоретическое упражнение, а реальная практика. Благодаря тесному сотрудничеству между Google Research и Search, эти передовые модели теперь обслуживают пользователей на нескольких языках, обеспечивая значительный скачок в точности по сравнению с традиционными каскадными системами.

Чтобы способствовать развитию всей области, мы также открываем исходный код набора данных SVQ в рамках Massive Sound Embedding Benchmark (MSEB). Мы считаем, что совместное использование ресурсов и прозрачная оценка ускоряют прогресс. В этом духе мы приглашаем мировое исследовательское сообщество использовать эти данные, тестировать новые подходы на общедоступных эталонных наборах данных и присоединиться к усилиям по созданию следующего поколения по-настоящему интеллектуальных голосовых интерфейсов.

Благодарности

Авторы искренне благодарят всех, кто внес свой вклад в этот проект, чей ценный вклад сделал его возможным. Мы особенно благодарны нашим коллегам Хави Абрахаму, Сирилу Аллаузену, Тому Багби, Картику Кумару Банди, Стефану Бютчеру, Дэйву Допсону, Люси Хадден, Георгу Хайголду, Санджиту Джале, Шанкару Кумару, Джи Ма, Эялю Мизрахи, Панду Наяку, Пью Путхивидхье, Дэвиду Рыбачу, Джунгшику Шину, Венкату Субраманиану, Сундипу Тирумаларедди и Тристану Апстиллу. Мы также хотели бы отметить тех, кто помог подготовить эту публикацию: Марка Симборга за его обширную редактуру, Кимберли Шведе за замечательные иллюстрации и Микки Вурца за его ценную помощь.

    Источник: research.google

    ✅ Найденные теги: S2R, Голосовой, новости, Поиск, преобразование, Речь

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Баскетболисты играют в зале, один делает дриблинг.
    Запуск ракеты NASA Artemis 2 с космодрома, подъем с дымом.
    Красочный логотип Google Cloud на фоне офисного здания и столбов на улице.
    5 контейнеров Docker для малого бизнеса
    Некоторые медицинские системы Epic теперь подключаются к SSA через TEFCA.
    Зрители в 3D-очках в кинотеатре, черно-белая фотография, ретро стиль.
    ideipro logotyp
    Цифровые абстрактные облака речи на темно-синем фоне с сеткой и светящимися линиями.
    Цифровые пузырьки диалога из сетей на темно-синем фоне, символы коммуникации.
    Image Not Found
    Запуск ракеты NASA Artemis 2 с космодрома, подъем с дымом.

    Стартовала первая за полвека пилотируемая миссия к Луне

    © NASA Сегодня ночью с космодрома на мысе Канаверал стартовала миссия Arthemis II — первая пилотируемая миссия к Луне более, чем за полвека (программа Apollo (последняя высадка людей на Луну состоялась в декабре 1972 года). Транляция запуска…

    Апр 10, 2026
    Красочный логотип Google Cloud на фоне офисного здания и столбов на улице.

    Google и Intel углубляют партнерство в области инфраструктуры искусственного интеллекта.

    Вкратце Источник изображения: Алекс Краус/Bloomberg / Getty Images В четверг Google и Intel объявили о расширении многолетнего партнерства, в рамках которого Google Cloud продолжит использовать инфраструктуру искусственного интеллекта Intel и совместно разрабатывать процессоры. Google Cloud будет использовать…

    Апр 10, 2026
    5 контейнеров Docker для малого бизнеса

    5 контейнеров Docker для малого бизнеса

    Вот пять готовых к использованию контейнеров Docker, которые можно развернуть уже сегодня, чтобы упростить работу любого малого бизнеса. Изображение предоставлено редактором. # Введение Малые предприятия часто оказываются в затруднительном положении в отношении инфраструктуры данных. Они сталкиваются с…

    Апр 10, 2026
    Некоторые медицинские системы Epic теперь подключаются к SSA через TEFCA.

    Некоторые медицинские системы Epic теперь подключаются к SSA через TEFCA.

    В настоящее время 13 больниц и 374 клиники обмениваются медицинскими картами пациентов напрямую с Управлением социального обеспечения через общенациональную сеть взаимодействия. Электронные медицинские карты (ЭМК, ЭМР) Фото: MoMo Productions/Getty Images Как сообщила компания, медицинские организации, использующие электронные…

    Апр 10, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых