Qwen3-ASR — распознавание речи, которое не ломается на сложных записях
На Hugging Face выложили демо Qwen3-ASR — продвинутую нейросеть для распознавания речи, которая уверенно работает там, где обычные ASR начинают сдаваться.
Сервис превращает любую аудиозапись в текст прямо в браузере. Поддерживаются русский, английский и ещё десятки языков, причём язык определяется автоматически: можно начать говорить на одном и спокойно перейти на другой — модель подстроится сама.
Почему это реально полезно:
— корректно распознаёт речь в шуме
— вытягивает невнятные слова и плохой микрофон
— справляется с пением, гнусавым рэпом и сложной дикцией
— работает даже с низким качеством звука
Отдельный плюс — возможность заранее задать важные слова, имена и термины, чтобы они распознавались правильно без дополнительного обучения модели. Для интервью, подкастов, лекций и технички — огромная экономия времени.
Условия:
— работает прямо в браузере
— бесплатно в демо-режиме
— без установки и возни с настройками
Вывод простой: Qwen3-ASR — редкий пример ASR, который рассчитан не на «идеальные записи», а на реальный мир. Именно такие инструменты и хочется сохранять в закладки.




























