
Соучредитель и генеральный директор ElevenLabs Мати Станишевски утверждает, что голосовое взаимодействие становится следующим важным интерфейсом для ИИ — способом, которым люди будут все чаще взаимодействовать с машинами по мере того, как модели будут выходить за рамки текста и экранов.
Выступая на Web Summit в Дохе, Станишевски заявил TechCrunch, что голосовые модели, подобные тем, что разрабатывает ElevenLabs, в последнее время вышли за рамки простого подражания человеческой речи — включая эмоции и интонацию — и теперь работают в тандеме с возможностями анализа больших языковых моделей. В результате, по его словам, происходит изменение того, как люди взаимодействуют с технологиями.
В ближайшие годы, сказал он, «надеюсь, все наши телефоны вернутся в карманы, и мы сможем погрузиться в реальный мир вокруг нас, используя голос как механизм управления технологиями».
Это видение стало движущей силой привлечения компанией ElevenLabs на этой неделе 500 миллионов долларов при оценке в 11 миллиардов долларов, и оно все чаще разделяется в индустрии ИИ. OpenAI и Google сделали голосовое управление центральным элементом своих моделей следующего поколения, в то время как Apple, похоже, незаметно разрабатывает технологии, близкие к голосовому управлению и работающие постоянно, посредством приобретений, таких как Q.ai. По мере распространения ИИ в носимых устройствах, автомобилях и другом новом оборудовании управление все меньше сводится к касаниям экрана и все больше — к речи, что делает голосовое управление ключевым полем битвы на следующем этапе развития ИИ.
Генеральный партнер Iconiq Capital Сет Пьеррепонт поддержал эту точку зрения на сцене Web Summit, заявив, что, хотя экраны по-прежнему будут важны для игр и развлечений, традиционные методы ввода, такие как клавиатура, начинают казаться «устаревшими».
По словам Пьерпонта, по мере того как системы искусственного интеллекта становятся все более самостоятельными, само взаимодействие также изменится: модели получат ограничения, интеграцию и контекст, необходимый для реагирования с меньшим количеством явных подсказок со стороны пользователей.
Станишевски указал на этот агентный сдвиг как на одно из самых значительных изменений, происходящих в настоящее время. Вместо того чтобы подробно описывать каждую инструкцию, он сказал, что будущие голосовые системы будут все больше полагаться на долговременную память и контекст, накопленный с течением времени, что сделает взаимодействие более естественным и потребует меньше усилий от пользователей.
Эта эволюция, добавил он, повлияет на то, как будут развертываться голосовые модели. Хотя высококачественные аудиомодели в основном размещались в облаке, Станишевски сказал, что ElevenLabs работает над гибридным подходом, который сочетает облачную и встроенную обработку — шаг, направленный на поддержку нового оборудования, включая наушники и другие носимые устройства, где голос становится постоянным спутником, а не функцией, которую вы решаете, когда использовать.
Компания ElevenLabs уже сотрудничает с Meta, внедряя голосовые технологии в такие продукты, как Instagram и Horizon Worlds, платформу виртуальной реальности компании. Станишевски заявил, что он также был бы открыт для сотрудничества с Meta в разработке умных очков Ray-Ban по мере того, как голосовые интерфейсы будут внедряться в новые форм-факторы.
Однако по мере того, как голосовые технологии становятся все более распространенными и интегрируются в повседневное оборудование, это порождает серьезные опасения по поводу конфиденциальности, слежки и того, сколько личных данных будут хранить голосовые системы по мере их приближения к повседневной жизни пользователей — в злоупотреблении которыми уже обвиняли такие компании, как Google.
Источник: techcrunch.com























