
Калифорнийский стартап Subtle Computing решает проблему улавливания голосов людей в шумной обстановке с помощью собственных моделей изоляции голоса — технологии, которая может принести пользу продуктам и сервисам на основе голосового ИИ.
Потребительские приложения, использующие голосовой ИИ, сегодня демонстрируют колоссальный рост. ИИ-приложения для записи записей совещаний, такие как Granola, Fireflies, Fathom и Read AI, привлекли внимание как пользователей, так и инвесторов. Такие компании, как OpenAI, ClickUp и Notion, уже интегрировали решения для транскрипции голоса. Разработчики приложений, такие как Wispr Flow и Willow, работают над голосовой диктовкой. Кроме того, существуют компании-разработчики оборудования, такие как Plaud и Sandbar, которые используют устройства для транскрипции голоса, а затем применяют ИИ для формирования аналитических данных и взаимодействия с пользователем.
Одной из задач этих компаний является улавливание голосов пользователей в любой обстановке, например, в шумных кафе или офисах.
Чтобы решить эту проблему, компания Subtle Computing разработала сквозную модель изоляции голоса, которая может распознавать вашу речь даже в шумной обстановке. Чэнь отметил, что многие компании работают над распознаванием голоса. Он отметил, что иногда производители устройств отправляют голос в облако для получения чистого результата, но это неэффективно.
Стартап обучает определенные модели под акустику конкретного устройства и адаптируется к голосу пользователя вместо того, чтобы обучать одну модель, работающую на всех устройствах.
«Мы обнаружили, что, сохраняя акустические характеристики устройства, мы получаем на порядок более высокую производительность по сравнению с типовыми решениями. Это также означает, что мы можем предлагать пользователю персонализированные решения», — сказал Чэнь.
Компанию основали Тайлер Чен, Дэвид Харрисон, Саванна Кофер и Джеки Ян, познакомившиеся в Стэнфорде. Чен, Кофер и Ян работали над докторскими диссертациями, пока Харрисон получал степень магистра делового администрирования (MBA). Они познакомились на курсе Стива Бланка Lean Launchpad, где работали над альтернативными интерфейсами для вычислений и начали разрабатывать Subtle Computing.
«По мере того, как мы всё больше взаимодействуем с ИИ, мы приближаемся к будущему, в котором мы будем общаться со своими устройствами», — сказал Чэнь. «Но очевидный вопрос заключается в том, насколько хорошо наши устройства понимают нас, пользователей, во всех средах, в которых мы работаем изо дня в день. Будь то очень шумное кафе или общий офис, где вокруг вас находятся другие люди, и вы, возможно, обсуждаете что-то личное — голосовое общение сегодня так не работает», — добавил он.
Стартап заявил, что может использовать эту модель только для изоляции голоса на некоторых устройствах, размер которой составляет всего несколько мегабайт, а задержка — 100 мс. Компания также может использовать другую модель для расшифровки голоса и вывода текста для других устройств. Чен отметил, что благодаря модели изоляции модель транскрипции компании может лучше понимать пользователей и, в свою очередь, создавать более точную расшифровку.
Компания Subtle Computing сообщила, что Qualcomm выбрала стартап в качестве участника своей программы расширения возможностей голосовой связи и музыки. Это означает, что технологии стартапа будут совместимы с чипами Qualcomm и будут доступны на устройствах, производимых OEM-производителями.
Компания привлекла $6 млн начального финансирования под руководством Entrada Ventures при участии Amplify Partners, Abstract Ventures и бизнес-ангелов, включая таких основателей, как Биз Стоун из Twitter, Эван Шарп из Pinterest и Джонни Хо из Perplexity.
Карен Ротер Дэвис, управляющий партнёр Entrada Ventures и бывший директор одного из первых проектов в X (Alphabet), отметила, что голосовой ИИ — это шумная сфера, и, хотя взаимодействие через эту среду набирает обороты, в целом голосовой опыт оставляет желать лучшего. Она считает, что фокус стартапа на изоляции голоса открывает новый взгляд на рынок.
«Хотя можно спорить о том, увеличит или сократит ИИ время, которое мы тратим на повседневную работу, мы все согласны с тем, что достижения в области вычислительной мощности и машинного обучения/ИИ открывают возможности для прорыва в области голосовых интерфейсов — при условии правильного подхода», — сказала Дэвис. «Subtle Computing — это возможность для людей общаться там, где они находятся, с помощью голосовых интерфейсов, которые работают как в условиях сильного шума, так и в условиях тишины, обеспечивая надёжное, простое и увлекательное голосовое взаимодействие. Это меняет правила игры», — добавила она.
Компания также заявила, что сотрудничает с брендом потребительского оборудования и автомобильным брендом (не раскрывая их названий) для внедрения своих решений. Однако Subtle Computing не хочет быть просто образцовым поставщиком для других компаний.
Стартап также заявил, что планирует в следующем году анонсировать потребительский продукт, который будет охватывать как аппаратное, так и программное обеспечение, но не раскрыл подробностей.
Источник: techcrunch.com



























