Image

OpenAI начал внедрять расширенный голосовой режим ChatGPT во вторник, предоставляя пользователям первый доступ к

OpenAI unveils ChatGPT Advanced Voice Mode in May 2024.

Во вторник OpenAI начал внедрять расширенный голосовой режим ChatGPT, предоставив пользователям первый доступ к гиперреалистичным звуковым ответам GPT-4o. Альфа-версия будет доступна небольшой группе пользователей ChatGPT Plus уже сегодня, и OpenAI заявляет, что осенью 2024 года эта функция будет постепенно доступна для всех пользователей Plus.

Когда в мае OpenAI впервые продемонстрировал голос GPT-4o, эта функция шокировала аудиторию быстрыми откликами и поразительным сходством с голосом реального человека – особенно одного из них. Голос Скай напоминал голос Скарлетт Йоханссон, актрисы, сыгравшей искусственную ассистентку в фильме “Она”. Вскоре после демонстрации OpenAI Йоханссон сказала, что отказалась от многочисленных просьб генерального директора Сэма Альтмана использовать ее голос, а после просмотра демонстрации GPT-4o наняла юриста, чтобы защитить свой имидж. OpenAI отрицал использование голоса Йоханссон, но позже удалил голос, показанный в демоверсии. В июне OpenAI заявила, что отложит выпуск расширенного голосового режима для улучшения мер безопасности.

Прошел месяц, и ожидание закончилось (вроде как). OpenAI заявляет, что возможности видео и скриншотов, представленные в весеннем обновлении, не будут включены в альфа-версию, запуск запланирован на “более поздний срок”. На данный момент демоверсия GPT-4o, которая поразила всех, по-прежнему остается только демонстрацией, но некоторые пользователи премиум-класса теперь получат доступ к голосовой функции ChatGPT. там.

В ChatGPT теперь можно разговаривать и слушать

Возможно, вы уже опробовали голосовой режим, доступный в настоящее время в ChatGPT, но OpenAI утверждает, что расширенный голосовой режим отличается. Старое решение ChatGPT для обработки звука использовало три отдельные модели: одну для преобразования вашего голоса в текст, GPT-4 для обработки вашего запроса, а затем третью для преобразования текста ChatGPT в голос. Но GPT-4o является мультимодальным и способен выполнять эти задачи без помощи вспомогательных моделей, что значительно сокращает время ожидания при разговоре. OpenAI также утверждает, что GPT-4o может распознавать эмоциональные интонации в вашем голосе, включая печаль, волнение или пение.

В этом пилотном выпуске пользователи ChatGPT Plus смогут воочию убедиться в том, насколько реалистичным является расширенный голосовой режим OpenAI. TechCrunch не смог протестировать эту функцию до публикации этой статьи, но мы рассмотрим ее, когда получим доступ.

OpenAI заявляет, что постепенно выпускает новый голосовой интерфейс ChatGPT, чтобы внимательно следить за его использованием. Пользователи из alpha group получат оповещение в приложении ChatGPT, а затем электронное письмо с инструкциями по его использованию.

По словам компании, за несколько месяцев, прошедших с момента демонстрации OpenAI, она протестировала голосовые возможности GPT-4o с более чем 100 внешними сотрудниками red team, которые говорят на 45 различных языках. OpenAI сообщает, что отчет об этих усилиях по обеспечению безопасности будет опубликован в начале августа.

Компания заявляет, что расширенный голосовой режим будет ограничен четырьмя предустановленными голосами в ChatGPT – Juniper, Breeze, Cove и Ember, созданными в сотрудничестве с платными актерами озвучивания. Голос Sky, показанный в майской демонстрации OpenAI, больше не доступен в ChatGPT. Представитель OpenAI Линдси Маккаллум (Lindsay McCallum) говорит: “ChatGPT не может имитировать голоса других людей, как отдельных лиц, так и общественных деятелей, и будет блокировать результаты, которые отличаются от одного из этих предустановленных голосов”.

OpenAI пытается избежать споров о подделках. В январе технология голосового клонирования ИИ-стартапа ElevenLabs была использована для того, чтобы выдать себя за президента Байдена, обманув избирателей на праймериз в Нью-Гэмпшире.

OpenAI также сообщает, что внедрила новые фильтры, блокирующие определенные запросы на создание музыки или другого аудио, защищенного авторским правом. За последний год у компаний, занимающихся искусственным интеллектом, возникли юридические проблемы из-за нарушения авторских прав, а аудиомодели, такие как GPT-4o, открывают совершенно новую категорию компаний, которые могут подать жалобу. В частности, звукозаписывающие лейблы, которые уже подали в суд на производителей песен с искусственным интеллектом Suno и Udio.

❌ Нет тегов для этой статьи

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых