Google анонсировала Gemini 3.5 Live Translate для мгновенного голосового перевода.
При голосовом переводе сохраняются тон, темп и высота голоса говорящего, а для обеспечения безопасности используются водяные знаки SynthID.

Фото: Аурих Лоусон Фото: Аурих Лоусон
Google уже много лет стремится к созданию функции перевода в реальном времени, называя это одним из своих «новаторских экспериментов в области машинного обучения». Мы видели множество демонстраций на мероприятиях Google, но для этого требовались телефоны Google, наушники или какое-либо другое специальное оборудование. В прошлом году Google предоставила возможность перевода в реальном времени большему числу пользователей в приложении Translate, и теперь расширяет его доступность. С выходом Gemini 3.5 Live Translate вы получите доступ к мгновенному переводу в большем количестве мест и с меньшей задержкой, чем когда-либо прежде.
Новая модель ИИ входит в семейство версий 3.5, представленных на конференции I/O. До сегодняшнего дня Google выпускала только Flash-версию, но мы ожидаем появления Pro-версии в ближайшие недели. Gemini 3.5 Live Translate — это модель преобразования речи в речь, настроенная на автоматическое распознавание и перевод более чем на 70 языков.
Google утверждает, что Gemini 3.5 Live Translate достаточно быстр, чтобы поддерживать обычный разговор, отставая от говорящего всего на несколько секунд, при этом точно передавая интонацию, темп и высоту тона. Короче говоря, голос звучит больше как ваш собственный, чем голос робота. Демонстрационные записи, сделанные в контролируемых условиях, звучат впечатляюще. Вам не придётся долго ждать, чтобы убедиться в возможностях модели самостоятельно.
Функция Gemini 3.5 Live Translate внедряется в различных частях экосистемы Google. Разработчики могут начать работу с публичной предварительной версией в API Gemini Live или AI Studio. Модель непрерывно обрабатывает речь и автоматически обрабатывает все многоязычные входные данные, избавляя разработчиков от необходимости вручную настраивать параметры. Она также отфильтровывает фоновый шум в шумной обстановке.
Начиная с этого месяца, избранные корпоративные клиенты также получат доступ к новой модели перевода в Google Meet, до более широкого внедрения. Google заявляет, что также дорабатывает интерфейс Meet, чтобы вывести функцию перевода в реальном времени на передний план. Наиболее примечательно, что функция перевода в реальном времени версии 3.5 скоро появится в приложении Google Translate для Android и iOS.
В конце прошлого года Google начала тестировать функцию живого перевода на основе Gemini в приложении с любыми наушниками (и в приложении для iOS); ранее для этого требовались наушники Pixel Buds от Google и телефон на Android. Ожидаемое обновление расширит возможности функции с добавлением новейшей модели 3.5. Теперь вы сможете использовать любые наушники, или же они вам вообще не понадобятся. Если у вас их нет под рукой, вы можете поднести телефон к уху, как во время разговора, чтобы услышать голосовой перевод. Однако этот «режим прослушивания» пока работает только на Android.
Аудиопотоки из Gemini 3.5 Live Translate призваны звучать реалистично, даже если они не совсем точно имитируют голос пользователя. Однако Google по-прежнему действует осторожно. Все аудиопотоки Gemini 3.5 Live Translate будут содержать водяные знаки SynthID, интегрированные в данные волновой формы. Это пометит речь как сгенерированную искусственным интеллектом, и (в настоящее время) удалить это невозможно.
Источник: arstechnica.com
Похожие записи
Похожие записи
Силикатные нанотрубки увеличат качество и срок службы аккумуляторов
15.12.2025
Горячая вода замерзает быстрее холодной? Физики продолжают задаваться вопросом.
08.12.2025
По сообщениям, Amazon ведет переговоры об инвестировании 10 миллиардов долларов в OpenAI, поскольку соглашения о циклической экономике остаются популярными.
17.12.2025Подписка на рассылку
Получайте свежие новости и идеи на почту. Без спама — только самое интересное.
Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.
