
Во вторник OpenAI начал внедрять расширенный голосовой режим ChatGPT, предоставив пользователям первый доступ к гиперреалистичным звуковым ответам GPT-4o. Альфа-версия будет доступна небольшой группе пользователей ChatGPT Plus уже сегодня, и OpenAI заявляет, что осенью 2024 года эта функция будет постепенно доступна для всех пользователей Plus.
Когда в мае OpenAI впервые продемонстрировал голос GPT-4o, эта функция шокировала аудиторию быстрыми откликами и поразительным сходством с голосом реального человека – особенно одного из них. Голос Скай напоминал голос Скарлетт Йоханссон, актрисы, сыгравшей искусственную ассистентку в фильме “Она”. Вскоре после демонстрации OpenAI Йоханссон сказала, что отказалась от многочисленных просьб генерального директора Сэма Альтмана использовать ее голос, а после просмотра демонстрации GPT-4o наняла юриста, чтобы защитить свой имидж. OpenAI отрицал использование голоса Йоханссон, но позже удалил голос, показанный в демоверсии. В июне OpenAI заявила, что отложит выпуск расширенного голосового режима для улучшения мер безопасности.
Прошел месяц, и ожидание закончилось (вроде как). OpenAI заявляет, что возможности видео и скриншотов, представленные в весеннем обновлении, не будут включены в альфа-версию, запуск запланирован на “более поздний срок”. На данный момент демоверсия GPT-4o, которая поразила всех, по-прежнему остается только демонстрацией, но некоторые пользователи премиум-класса теперь получат доступ к голосовой функции ChatGPT. там.
В ChatGPT теперь можно разговаривать и слушать
Возможно, вы уже опробовали голосовой режим, доступный в настоящее время в ChatGPT, но OpenAI утверждает, что расширенный голосовой режим отличается. Старое решение ChatGPT для обработки звука использовало три отдельные модели: одну для преобразования вашего голоса в текст, GPT-4 для обработки вашего запроса, а затем третью для преобразования текста ChatGPT в голос. Но GPT-4o является мультимодальным и способен выполнять эти задачи без помощи вспомогательных моделей, что значительно сокращает время ожидания при разговоре. OpenAI также утверждает, что GPT-4o может распознавать эмоциональные интонации в вашем голосе, включая печаль, волнение или пение.
В этом пилотном выпуске пользователи ChatGPT Plus смогут воочию убедиться в том, насколько реалистичным является расширенный голосовой режим OpenAI. TechCrunch не смог протестировать эту функцию до публикации этой статьи, но мы рассмотрим ее, когда получим доступ.
OpenAI заявляет, что постепенно выпускает новый голосовой интерфейс ChatGPT, чтобы внимательно следить за его использованием. Пользователи из alpha group получат оповещение в приложении ChatGPT, а затем электронное письмо с инструкциями по его использованию.
По словам компании, за несколько месяцев, прошедших с момента демонстрации OpenAI, она протестировала голосовые возможности GPT-4o с более чем 100 внешними сотрудниками red team, которые говорят на 45 различных языках. OpenAI сообщает, что отчет об этих усилиях по обеспечению безопасности будет опубликован в начале августа.
Компания заявляет, что расширенный голосовой режим будет ограничен четырьмя предустановленными голосами в ChatGPT – Juniper, Breeze, Cove и Ember, созданными в сотрудничестве с платными актерами озвучивания. Голос Sky, показанный в майской демонстрации OpenAI, больше не доступен в ChatGPT. Представитель OpenAI Линдси Маккаллум (Lindsay McCallum) говорит: “ChatGPT не может имитировать голоса других людей, как отдельных лиц, так и общественных деятелей, и будет блокировать результаты, которые отличаются от одного из этих предустановленных голосов”.
OpenAI пытается избежать споров о подделках. В январе технология голосового клонирования ИИ-стартапа ElevenLabs была использована для того, чтобы выдать себя за президента Байдена, обманув избирателей на праймериз в Нью-Гэмпшире.
OpenAI также сообщает, что внедрила новые фильтры, блокирующие определенные запросы на создание музыки или другого аудио, защищенного авторским правом. За последний год у компаний, занимающихся искусственным интеллектом, возникли юридические проблемы из-за нарушения авторских прав, а аудиомодели, такие как GPT-4o, открывают совершенно новую категорию компаний, которые могут подать жалобу. В частности, звукозаписывающие лейблы, которые уже подали в суд на производителей песен с искусственным интеллектом Suno и Udio.



























