
Искусственный интеллект позволяет любому создавать видео, но многие инструменты для создания видео с помощью ИИ не поддерживают звук. Mirelo разрабатывает ИИ, который добавляет звуковые дорожки, соответствующие действию в видео.
Ранее в этом году берлинский стартап выпустил Mirelo SFX v1.5, модель искусственного интеллекта, которая интерпретирует видео для добавления синхронизированных звуковых эффектов (SFX).
Это привлекло внимание венчурных инвесторов, готовящихся к революции генеративного ИИ в играх. Как стало известно TechCrunch из эксклюзивных источников, двухлетний немецкий стартап привлек 41 миллион долларов в рамках посевного раунда, возглавляемого Index Ventures и Andreessen Horowitz.
Этот новый капитал поможет Mirelo более эффективно конкурировать в своей новой категории. Пока компания еще работала в режиме скрытности и испытывала нехватку ресурсов, крупные компании, такие как Sony и Tencent, выпустили модели преобразования видео в спецэффекты. То же самое сделали принадлежащая Kuaishou китайская компания Kling AI и ElevenLabs, которую также поддерживает a16z.
Хотя Mirelo уже отличается от них более узкой специализацией, для того чтобы превзойти эти модели в долгосрочной перспективе, стартапу потребуется нанять дополнительных сотрудников. В целом, как сообщил TechCrunch генеральный директор и соучредитель Mirelo Си Джей Саймон-Габриэль, к концу следующего года численность команды из 10 человек «удвоится, если не утроится».
Новые сотрудники будут поддерживать научно-исследовательскую работу Mirelo, а также стратегию развития продукта и выхода на рынок. Стартап опубликовал свои модели на платформах Fal.ai и Replicate и ожидает, что в краткосрочной перспективе большая часть его доходов будет поступать от использования API, сказал Симон-Габриэль. Но компания также инвестирует в развитие своего рабочего пространства для создателей контента, Mirelo Studio, которое в конечном итоге сможет обеспечить полноценное профессиональное использование.
По мере того как Mirelo готовится к масштабированию, стартап и его инвесторы также ожидают проблем, связанных с обучающими данными, которые преследовали другие компании, занимающиеся генеративным искусственным интеллектом. По словам Джорджии Стивенсон, которая руководила инвестициями Index, Mirelo основывает свои модели на общедоступных и приобретенных звуковых библиотеках и заключает партнерские соглашения о разделе доходов, которые уважают права артистов.
Это противоречие, присущее инструментам генеративного ИИ, но Mirelo не вытесняет музыкантов и звукорежиссеров — по крайней мере, пока. Используя модель freemium, включающую рекомендуемый план для создателей контента по цене 20 евро в месяц (примерно 23,50 доллара США), стартап в основном ориентируется на любителей и продвинутых пользователей, желающих включить звук в видеороликах, созданных ИИ.
По словам Симона-Габриэля, создатели контента не смогут в полной мере воспользоваться этим новым потенциалом без аудио.
«Джордж Лукас сказал, что звук составляет 50% впечатлений от просмотра фильма. Это не преувеличение, — сказал он. — Скорее, это преуменьшение. Вы можете взять одни и те же кадры, и звук создаст совершенно другую атмосферу, в зависимости от того, какие звуковые эффекты и музыку вы добавите».
Он и его соучредитель, Флориан Венцель, оба являются исследователями в области искусственного интеллекта и музыкантами, и в планах стартапа — генерация музыки с помощью ИИ. Но, по словам Симона-Габриэля, Мирело наблюдает больший интерес к звуковым эффектам, отчасти потому, что в этой области проводится меньше исследований, чем в других областях ИИ.
«Здесь проще создать настоящую защиту, а затем извлечь из этого выгоду», — отметил он.
Это может принести Mirelo прибыль. Компания Simon-Gabriel отказалась раскрыть свою новую оценку, но заявила, что она «значительно» выросла по сравнению с ранее нераскрытым предпосевным раундом. Тот предыдущий раунд возглавила берлинская фирма Atlantic, которая также участвовала в новом финансировании, в результате чего общая сумма привлеченных Mirelo средств достигла 44 миллионов долларов, что помогло восполнить дефицит ресурсов.
Стартап также поддерживается частными инвесторами, которые придают доверие к его технологии и могут открыть новые возможности, в том числе генеральным директором Mistral Артуром Меншем, главным научным сотрудником Hugging Face Томасом Вольфом, соучредителем Fal.ai Буркаем Гуром и другими.
Тем не менее, команда понимает, что видеоролики, созданные с помощью ИИ, могут оставаться безмолвными недолго.
Например, видеогенератор Gemini теперь включает в себя звуковые дорожки, созданные на основе модели преобразования видео в аудио Veo 3.1 от DeepMind. Но, как кажется, правота Симон-Габриэля подтвердилась. «Теперь люди вдруг понимают: „О, может быть, нам стоит добавить звук“. Но, конечно, его нужно добавить. Это немного похоже на немые фильмы против звуковых, верно? Разница действительно огромна!»
Источник: techcrunch.com























