
Разработчики и компании все чаще внедряют в свои приложения агентов искусственного интеллекта и чат-ботов, но до сих пор они в основном ограничивались текстовым общением. Компания Lemon Slice, занимающаяся генерацией цифровых аватаров, работает над добавлением видеослоя в эти чаты с помощью новой модели распространения, которая может создавать цифровые аватары из одного изображения.
Модель, получившая название Lemon Slice-2, может создавать цифровой аватар, работающий на основе базы знаний и выполняющий любую роль, требуемую от ИИ-агента, например, отвечающий на запросы клиентов, помогающий с домашними заданиями или даже работающий в качестве агента по поддержке психического здоровья.
«На заре GenAI мои соучредители начали экспериментировать с различными моделями видео, и нам стало очевидно, что видео должно быть интерактивным. Привлекательность таких инструментов, как ChatGPT, заключалась именно в их интерактивности, и мы хотим, чтобы видео тоже имело такой уровень взаимодействия», — сказала соучредитель Лина Колуччи.
Компания Lemon Slice утверждает, что это модель с 20 миллиардами параметров, способная работать на одном графическом процессоре и транслировать видео в реальном времени со скоростью 20 кадров в секунду. Компания предоставляет модель через API и встраиваемый виджет, который компании могут интегрировать на свои сайты с помощью одной строки кода. После создания аватара можно в любой момент изменить фон, стиль и внешний вид персонажа.
Помимо человекоподобных аватаров, компания также уделяет внимание созданию нечеловеческих персонажей, отвечающих различным потребностям. Для генерации голосов этих аватаров стартап использует технологию ElevenLabs.
Компания Lemon Slice, основанная Линой Колуччи, Сидни Примасом и Эндрю Вайцем в 2024 году, делает ставку на то, что использование собственной универсальной модели диффузии (типа генеративной модели, которая учится работать в обратном направлении, используя зашумленные обучающие данные для генерации новых данных) для создания аватаров выделит ее среди конкурентов.
«Существующие на сегодняшний день решения для создания аватаров, которые я видел, приносят продукту отрицательную пользу», — сказал Колуччи. «Они жуткие и неестественные. Они хорошо выглядят несколько секунд, но как только вы начинаете с ними взаимодействовать, возникает ощущение чего-то жуткого, и это не успокаивает. Причина, по которой аватары не получили широкого распространения, заключается в том, что они недостаточно хороши».
Для финансирования этих усилий компания во вторник сообщила о привлечении 10,5 миллионов долларов в рамках посевного финансирования от Matrix Partners, Y Combinator, технического директора Dropbox Араша Фердоуси, генерального директора Twitch Эмметта Шира и The Chainsmokers.
Компания заявляет, что у нее есть механизмы защиты от несанкционированного клонирования лиц или голосов, а также что она использует большие языковые модели для модерации контента.
Компания Lemon Slice не стала называть организации, использующие её технологию, но заявила, что модель применяется в таких областях, как образование, изучение языков, электронная коммерция и корпоративное обучение.
Стартап сталкивается с жесткой конкуренцией со стороны стартапов, занимающихся генерацией видео, таких как D-ID, HeyGen и Synthesia, а также других производителей цифровых аватаров, таких как Genies, Soul Machine, Praktika и AvatarOS.
Илья Сухар, партнер Matrix, считает, что аватары будут полезны в областях, где широко распространены видеоролики. Например, люди предпочитают учиться по видео на YouTube, а не читать длинные текстовые блоки. Он отметил, что технические возможности Lemon Slice и собственные ресурсы дадут компании преимущество перед другими стартапами.
«Это высококвалифицированная команда с большим опытом разработки и внедрения продуктов машинного обучения, а не просто демонстраций и исследований. Многие другие игроки специализируются на конкретных сценариях или отраслях, а Lemon Slice применяет обобщенный подход к масштабированию (данных и вычислительных ресурсов), основанный на горьком опыте, который успешно применяется в других областях ИИ», — сказал он.
Джаред Фридман из Y Combinator считает, что использование модели распространения позволяет Lemon Slice создавать любые типы аватаров, в отличие от некоторых других стартапов, которые сосредоточены либо на человекоподобных, либо на игровых персонажах.
«Я считаю, что Lemon Slice — единственная компания, которая использует фундаментальный подход машинного обучения, способный в конечном итоге преодолеть «зловещую долину» и пройти тест Тьюринга для аватаров. Они обучают модель того же типа, что и Veo3 или Sora: видеодиффузионный трансформер. Поскольку это универсальная модель, которая выполняет весь процесс от начала до конца, у нее нет предела совершенства; другие модели достигают уровня ниже фотореалистичного. Она также работает как с человеческими, так и с нечеловеческими лицами и требует только изображения для добавления нового лица», — сказал он.
В настоящее время в стартапе работают восемь сотрудников, и он планирует использовать полученные средства для найма инженеров и специалистов по выводу продукта на рынок, а также для оплаты вычислительных ресурсов, необходимых для обучения моделей.
Источник: techcrunch.com

























