Image

Модели изоляции голоса Subtle Computing помогают компьютерам понимать вас в шумной обстановке

6bb04c38d30ed4d5569408ddc3a3e726
Источники изображений: Тонкие вычисления

Калифорнийский стартап Subtle Computing решает проблему улавливания голосов людей в шумной обстановке с помощью собственных моделей изоляции голоса — технологии, которая может принести пользу продуктам и сервисам на основе голосового ИИ.

Потребительские приложения, использующие голосовой ИИ, сегодня демонстрируют колоссальный рост. ИИ-приложения для записи записей совещаний, такие как Granola, Fireflies, Fathom и Read AI, привлекли внимание как пользователей, так и инвесторов. Такие компании, как OpenAI, ClickUp и Notion, уже интегрировали решения для транскрипции голоса. Разработчики приложений, такие как Wispr Flow и Willow, работают над голосовой диктовкой. Кроме того, существуют компании-разработчики оборудования, такие как Plaud и Sandbar, которые используют устройства для транскрипции голоса, а затем применяют ИИ для формирования аналитических данных и взаимодействия с пользователем.

Одной из задач этих компаний является улавливание голосов пользователей в любой обстановке, например, в шумных кафе или офисах.

Чтобы решить эту проблему, компания Subtle Computing разработала сквозную модель изоляции голоса, которая может распознавать вашу речь даже в шумной обстановке. Чэнь отметил, что многие компании работают над распознаванием голоса. Он отметил, что иногда производители устройств отправляют голос в облако для получения чистого результата, но это неэффективно.

Стартап обучает определенные модели под акустику конкретного устройства и адаптируется к голосу пользователя вместо того, чтобы обучать одну модель, работающую на всех устройствах.

«Мы обнаружили, что, сохраняя акустические характеристики устройства, мы получаем на порядок более высокую производительность по сравнению с типовыми решениями. Это также означает, что мы можем предлагать пользователю персонализированные решения», — сказал Чэнь.

Компанию основали Тайлер Чен, Дэвид Харрисон, Саванна Кофер и Джеки Ян, познакомившиеся в Стэнфорде. Чен, Кофер и Ян работали над докторскими диссертациями, пока Харрисон получал степень магистра делового администрирования (MBA). Они познакомились на курсе Стива Бланка Lean Launchpad, где работали над альтернативными интерфейсами для вычислений и начали разрабатывать Subtle Computing.

«По мере того, как мы всё больше взаимодействуем с ИИ, мы приближаемся к будущему, в котором мы будем общаться со своими устройствами», — сказал Чэнь. «Но очевидный вопрос заключается в том, насколько хорошо наши устройства понимают нас, пользователей, во всех средах, в которых мы работаем изо дня в день. Будь то очень шумное кафе или общий офис, где вокруг вас находятся другие люди, и вы, возможно, обсуждаете что-то личное — голосовое общение сегодня так не работает», — добавил он.

Стартап заявил, что может использовать эту модель только для изоляции голоса на некоторых устройствах, размер которой составляет всего несколько мегабайт, а задержка — 100 мс. Компания также может использовать другую модель для расшифровки голоса и вывода текста для других устройств. Чен отметил, что благодаря модели изоляции модель транскрипции компании может лучше понимать пользователей и, в свою очередь, создавать более точную расшифровку.

Компания Subtle Computing сообщила, что Qualcomm выбрала стартап в качестве участника своей программы расширения возможностей голосовой связи и музыки. Это означает, что технологии стартапа будут совместимы с чипами Qualcomm и будут доступны на устройствах, производимых OEM-производителями.

Компания привлекла $6 млн начального финансирования под руководством Entrada Ventures при участии Amplify Partners, Abstract Ventures и бизнес-ангелов, включая таких основателей, как Биз Стоун из Twitter, Эван Шарп из Pinterest и Джонни Хо из Perplexity.

Карен Ротер Дэвис, управляющий партнёр Entrada Ventures и бывший директор одного из первых проектов в X (Alphabet), отметила, что голосовой ИИ — это шумная сфера, и, хотя взаимодействие через эту среду набирает обороты, в целом голосовой опыт оставляет желать лучшего. Она считает, что фокус стартапа на изоляции голоса открывает новый взгляд на рынок.

«Хотя можно спорить о том, увеличит или сократит ИИ время, которое мы тратим на повседневную работу, мы все согласны с тем, что достижения в области вычислительной мощности и машинного обучения/ИИ открывают возможности для прорыва в области голосовых интерфейсов — при условии правильного подхода», — сказала Дэвис. «Subtle Computing — это возможность для людей общаться там, где они находятся, с помощью голосовых интерфейсов, которые работают как в условиях сильного шума, так и в условиях тишины, обеспечивая надёжное, простое и увлекательное голосовое взаимодействие. Это меняет правила игры», — добавила она.

Компания также заявила, что сотрудничает с брендом потребительского оборудования и автомобильным брендом (не раскрывая их названий) для внедрения своих решений. Однако Subtle Computing не хочет быть просто образцовым поставщиком для других компаний.

Стартап также заявил, что планирует в следующем году анонсировать потребительский продукт, который будет охватывать как аппаратное, так и программное обеспечение, но не раскрыл подробностей.

Источник: techcrunch.com

✅ Найденные теги: Модели, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых