Image

Клоны искусственного интеллекта Synthesia стали ещё более выразительными, чем когда-либо. Скоро они смогут отвечать.

Зловещая долина сужается. Готовы ли мы к тому, что будет дальше?

Искусственный интеллект автора MITTR Рианнон Уильямс.

Предоставлено Synthesia

Ранее этим летом я прошёл через стеклянный вестибюль шикарного лондонского офиса, вошёл в лифт, а затем по коридору оказался в чистой комнате с ковровым покрытием. Естественный свет лился через окна, а пара больших осветительных приборов, похожих на зонты, делала комнату ещё светлее. Я старался не щуриться, занимая место перед штативом, оснащённым большой камерой и ноутбуком с автоответчиком. Я сделал глубокий вдох и начал читать сценарий.

Я не диктор новостей и не актёр, проходящий прослушивание для фильма — я посетил компанию Synthesia, занимающуюся разработкой искусственного интеллекта, чтобы получить необходимые данные для создания моего гиперреалистичного аватара. Аватары этой компании — отличный показатель того, насколько головокружительный прогресс был достигнут в области искусственного интеллекта за последние несколько лет, поэтому мне было интересно, насколько точно их последняя модель искусственного интеллекта, представленная в прошлом месяце, сможет воспроизвести меня.

Когда Synthesia была запущена в 2017 году, её основной целью было сопоставление ИИ-версий реальных человеческих лиц, например, лица бывшего футболиста Дэвида Бекхэма, с озвучкой на разных языках. Несколько лет спустя, в 2020 году, компания начала предоставлять компаниям, подписавшимся на её услуги, возможность создавать профессиональные презентационные видеоролики с участием либо ИИ-версий сотрудников, либо актёров, участвовавших в озвучивании по обоюдному согласию. Однако технология была несовершенна. Движения аватаров могли быть резкими и неестественными, их акценты иногда сбивались, а эмоции, передаваемые голосами, не всегда соответствовали выражению лица.

Теперь аватары Synthesia обновились, добавив им более естественные манеры и движения, а также выразительные голоса, которые лучше передают акцент говорящего, делая их ещё более похожими на людей. Для корпоративных клиентов Synthesia эти аватары станут отличными помощниками в презентации финансовых результатов, внутренних коммуникаций или обучающих видеороликов для персонала.

Видео с демонстрацией моего аватара показалось мне настолько же пугающим, насколько и технически впечатляющим. Оно настолько же изящное, что вполне могло бы сойти за запись бодрой корпоративной речи в высоком разрешении, и если бы вы меня не знали, то, вероятно, подумали бы, что это именно так. Эта демонстрация показывает, насколько сложнее становится отличить искусственное от настоящего. И вскоре эти аватары даже смогут с нами разговаривать. Но насколько лучше они могут стать? И как взаимодействие с клонами искусственного интеллекта может повлиять на нас?

Процесс создания

Когда в прошлом году моя бывшая коллега Мелисса посетила лондонскую студию Synthesia, чтобы создать своего аватара, ей пришлось пройти долгий процесс калибровки системы, зачитывая сценарий в разных эмоциональных состояниях и беззвучно проговаривая звуки, необходимые для того, чтобы её аватар мог произносить гласные и согласные. Спустя 15 месяцев, стоя в ярко освещённой комнате, я с облегчением узнал, что процесс создания значительно упростился. Джош Бейкер-Мендоса, технический руководитель Synthesia, советует мне жестикулировать и двигать руками, как при естественном разговоре, одновременно предупреждая, чтобы я не двигалась слишком много. Я, как положено, повторяю чрезмерно яркий сценарий, призванный побуждать меня говорить эмоционально и с энтузиазмом. Результат немного напоминает воскрешение Стива Джобса в виде светловолосой британки с низким, монотонным голосом.

К сожалению, это также создаёт впечатление, будто я сотрудник Synthesia. «Я так рад быть с вами сегодня и показать, над чем мы работаем. Мы находимся на пороге инноваций, и возможности безграничны», — я горячо повторяю, стараясь говорить живо, а не сумасшедше. «Так что приготовьтесь стать частью чего-то, что заставит вас воскликнуть: „Вау!“ Эта возможность не просто масштабная — она монументальная».

Всего через час команда получила все необходимые материалы. Пару недель спустя я получил два своих аватара: один, созданный на базе предыдущей модели Express-1, и другой, созданный с использованием новейшей технологии Express-2. Synthesia утверждает, что последний делает искусственных людей более реалистичными и похожими на людей, с которых они были созданы, добавляя им более выразительные жесты рук, мимику и речь. Вы можете увидеть результаты ниже.

ПРЕДОСТАВЛЕНО SYNTHESIA

В прошлом году Мелисса обнаружила, что её аватар, созданный на основе Express-1, не соответствует её трансатлантическому акценту. Диапазон его эмоций также был ограничен: когда она просила своего аватара сердито прочитать текст, тот звучал скорее плаксиво, чем яростно. За прошедшие месяцы Synthesia улучшила Express-1, но версия моего аватара, созданная с использованием той же технологии, яростно моргает и всё ещё с трудом синхронизирует движения тела с речью.

Напротив, меня поражает, насколько мой новый аватар «Экспресс-2» похож на меня: черты его лица идеально повторяют мои собственные. Голос у него пугающе точный, и хотя он жестикулирует больше, чем я, движения его рук в целом совпадают с тем, что я говорю.

Но крошечные признаки работы искусственного интеллекта всё ещё заметны, если знать, куда смотреть. Ладони у меня ярко-розовые и гладкие, как пластилин. Пряди волос жёстко висят на плечах, не двигаясь вместе со мной. Глаза смотрят стеклянным взглядом перед собой, редко моргая. И хотя голос, без сомнения, мой, в интонациях и манере речи моего цифрового клона есть что-то слегка странное. «Это здорово!» — невнятно восклицает мой аватар, прежде чем вернуться к более здравому тону.

Стартап в сфере искусственного интеллекта создал гиперреалистичный дипфейк с моим изображением, который настолько хорош, что даже пугает.

Новая технология Synthesia впечатляет, но поднимает большие вопросы о мире, в котором мы все чаще не можем отличить реальность от реальности.

Анна Айзербек, научный сотрудник по психологии из Берлинского университета имени Гумбольдта, изучающая реакцию людей на предполагаемые фальшивые лица, говорит, что не уверена, смогла бы она с первого взгляда распознать в моем аватаре подделку.

Но в конце концов она бы заметила что-то неладное. Дело не только в мелких деталях — моей странно неподвижной серьге или в том, как моё тело иногда движется короткими, резкими рывками. Дело в чём-то гораздо более глубоком, объясняет она.

«Что-то казалось немного пустым. Я знаю, что за этим нет никаких эмоций — это не сознательное существо. Оно ничего не чувствует», — говорит она. Просмотр видео вызвал у неё «какое-то странное чувство».

Мой цифровой клон и реакция Айзербека на него заставляют меня задуматься, насколько реалистичными должны быть эти аватары.

Я понимаю, что отчасти мой аватар смущает меня из-за того, что он ведёт себя так, как мне редко приходится. Его странный, оптимистичный тон совершенно не соответствует моей обычной манере речи; я — убеждённый циничный британец, которому сложно добавить энтузиазма в голос, даже когда я искренне взволнован или воодушевлён. Просто я такой. К тому же, просмотр видео по кругу заставляет меня задуматься, действительно ли я так размахиваю руками или так странно двигаю губами. Если вы думали, что столкнуться лицом к лицу со своим собственным лицом во время звонка в Zoom — это унизительно, подождите, пока не увидите свой аватар целиком.

Когда Facebook только набирал популярность в Великобритании почти 20 лет назад, мы с друзьями считали, что незаконно заходить в аккаунты друг друга и публиковать самые возмутительные или вызывающие гнев обновления статуса — это верх юмора. Интересно, не появится ли вскоре нечто подобное, если заставить чей-то аватар написать что-то по-настоящему постыдное: выразить поддержку опальному политику или (в моём случае) признаться в любви к музыке Эда Ширана.

«Экспресс-2» превращает каждого человека, с которым сталкивается, в безупречного профессионального оратора с языком тела гиперактивного хайп-мэна. И хотя это вполне логично для компании, специализирующейся на создании глянцевых бизнес-видео, наблюдение за моим аватаром совсем не похоже на наблюдение за мной. Это ощущение чего-то совершенно иного.

Как это работает

По словам Бьёрна Шуллера, профессора искусственного интеллекта в Имперском колледже Лондона, настоящая техническая проблема сегодня заключается не столько в создании аватаров, соответствующих нашей внешности, сколько в том, чтобы заставить их копировать наше поведение. «Чтобы добиться успеха, нужно многое учесть: нужны правильные микрожесты, правильная интонация, тембр голоса и правильное слово», — говорит он. «Я не хочу, чтобы ИИ [аватар] хмурился в неподходящий момент — это могло бы послать совершенно иной сигнал».

Для достижения более высокого уровня реализма компания Synthesia разработала ряд новых аудио- и видеомоделей искусственного интеллекта. Команда создала модель клонирования голоса, сохраняющую акцент, интонацию и выразительность говорящего человека, в отличие от других моделей голоса, которые могут сглаживать характерные акценты говорящих, превращая их в голоса, звучащие типично по-американски.

Может ли искусственный интеллект-двойник помочь мне выполнять мою работу?

Для некоторых цифровые клоны — это будущее влияния и продуктивности: лица, голоса и личности в неограниченном масштабе. Мой клон оказался разочаровывающим.

Когда пользователь загружает скрипт в Express-1, система анализирует слова, чтобы определить правильный тон. Затем эта информация передается в модель диффузии, которая визуализирует мимику и движения аватара в соответствии с речью.

Помимо голосовой модели, Express-2 использует три другие модели для создания и анимации аватаров. Первая генерирует жесты аватара, сопровождающие речь, передаваемую ему моделью Express-Voice. Вторая оценивает, насколько точно входящий звук соответствует нескольким версиям соответствующего сгенерированного движения, прежде чем выбрать наилучший. Затем финальная модель визуализирует аватара с выбранным движением.

Третья модель рендеринга значительно мощнее своей предшественницы Express-1. В то время как предыдущая модель имела несколько сотен миллионов параметров, в Express-2 их число исчисляется миллиардами. Это означает, что создание аватара занимает меньше времени, говорит Юсеф Алами Меджати, руководитель отдела исследований и разработок Synthesia:

«С Express-1 ему нужно было сначала увидеть, как кто-то выражает эмоции, чтобы распознать их. Теперь, поскольку мы обучили его на гораздо более разнообразных данных и гораздо больших наборах данных, используя гораздо больше вычислительных ресурсов, он просто автоматически усваивает эти ассоциации, не испытывая необходимости видеть их».

Сужение зловещей долины

Хотя человекоподобные аватары, созданные с помощью искусственного интеллекта, существуют уже много лет, недавний бум генеративного ИИ делает создание реалистичных синтетических людей всё проще и доступнее, и они уже используются в работе. Synthesia не одинока: компании, занимающиеся разработкой ИИ-аватаров, такие как Yuzu Labs, Creatify, Arcdads и Vidyard, предоставляют компаниям инструменты для быстрого создания и монтажа видеороликов с участием как ИИ-актёров, так и искусственных версий сотрудников, обещая экономически эффективные способы создания убедительной рекламы, которая вызывает интерес у аудитории. Аналогичным образом, созданные с помощью ИИ клоны стримеров в последние годы стали невероятно популярными в Китае, отчасти потому, что они могут продавать товары круглосуточно, не уставая и не требуя оплаты.

По крайней мере, на данный момент Synthesia «сфокусирована» на корпоративной сфере. Но компания не исключает расширения в новые секторы, такие как развлечения или образование, говорит Питер Хилл, технический директор компании. В качестве очевидного шага в этом направлении Synthesia недавно заключила партнерство с Google, чтобы интегрировать в свою платформу мощную новую генеративную видеомодель Veo 3, которая позволит пользователям напрямую создавать и встраивать клипы в видео Synthesia. Это предполагает, что в будущем эти гиперреалистичные искусственные люди смогут играть главные роли в детализированных вселенных с постоянно меняющимися фонами.

Революция в отношениях между ИИ уже наступила

Чат-боты стремительно меняют то, как мы общаемся друг с другом и с самими собой. Мы никогда не вернёмся к прежнему.

В настоящее время это может, например, включать использование Veo 3 для создания видеоролика о мясоперерабатывающем оборудовании, где аватар Synthesia будет рядом с оборудованием, рассказывающим о правилах безопасной эксплуатации. Но будущие версии технологии Synthesia могут привести к созданию обучающих видеороликов, настраиваемых под уровень знаний пользователя, говорит Алекс Войка, руководитель отдела корпоративных отношений и политики Synthesia. Например, видеоролик об эволюции жизни на Земле можно адаптировать для людей с высшим образованием по биологии или для тех, кто имеет знания на уровне средней школы. «Это будет гораздо более увлекательный и персонализированный способ подачи контента, что меня очень радует», — говорит он.

Следующим рубежом, по словам Synthesia, станут аватары, которые смогут разговаривать, «понимая» диалоги с пользователями и отвечая им в режиме реального времени. Представьте себе ChatGPT, но с прикреплённым к нему реалистичным цифровым человеком.

Synthesia уже добавила интерактивный элемент, позволяя пользователям отвечать на вопросы на экране во время викторин, которые показывают аватары. Но компания также изучает возможность сделать их по-настоящему интерактивными: в будущем пользователи смогут попросить своего аватара остановиться и подробнее рассказать о чём-то или задать ему вопрос. «Мы действительно хотим создать лучший опыт обучения, а это значит, что видео должно быть увлекательным, но в то же время персонализированным и интерактивным», — говорит Алами Меджати. «Для меня это то, чего не хватает в современных онлайн-обучениях. И я знаю, что мы очень близки к решению этой проблемы».

Мы уже знаем, что люди могут — и действительно создают — глубокие эмоциональные связи с системами искусственного интеллекта, даже с простыми текстовыми чат-ботами. Сочетание агентных технологий, которые уже способны самостоятельно ориентироваться в интернете, писать код и играть в видеоигры, с реалистичным человеческим лицом может привести к совершенно новому виду зависимости от искусственного интеллекта, считает Пэт Патаранутапорн, доцент Медиа-лаборатории Массачусетского технологического института.

«Если сделать систему слишком реалистичной, у людей могут начать формироваться определённые отношения с этими персонажами», — говорит он. «Мы видели много случаев, когда ИИ-компаньоны влияли на опасное поведение, даже когда они просто переписывались. Если бы у аватара была говорящая голова, это было бы ещё более захватывающим».

Шуллер согласен, что в ближайшем будущем аватары будут идеально оптимизированы для настройки уровня эмоций и харизмы, чтобы поддерживать интерес человеческой аудитории как можно дольше. «[Людям] будет очень сложно конкурировать с харизматичным ИИ будущего; он всегда рядом, всегда готов выслушать вас и всегда понимает», — говорит он. «ИИ изменит эту связь между людьми».

Ставя на паузу и прокручивая свой аватар Express-2, я представляю, как общаюсь с ним — с этим сверхъестественным, вечно жизнерадостным, всегда доступным продуктом пикселей и алгоритмов, который выглядит и звучит как я, но по сути — это не я. Виртуальная Рианнон никогда не смеялась, пока не плакала, не влюблялась, не пробегала марафон или не смотрела на закат в другой стране.

Но, признаю, она могла бы провести чертовски хорошую презентацию о том, почему Эд Ширан — величайший музыкант, когда-либо рождённый в Великобритании. И только мои самые близкие друзья и семья поймут, что это не я.

Источник: www.technologyreview.com

✅ Найденные теги: Клоны, новости
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых