Технология Gemini Omni Flash от Google обращается к API, превращая корпоративное видеопроизводство в диалог.

01.07.2026 ideipro.ru

Сэм Виттевин

Для большинства предприятий создание 90-секундного обучающего видеоролика или видеопрезентации продукта никогда не было простой задачей. Это требует тщательно спланированного задания, внутренней съемочной группы или привлечения стороннего подрядчика, съемок, монтажа и внесения правок. Изменение одной строчки текста на экране из-за юридической проверки — и вся цепочка начинается заново. Высокая стоимость и длительные сроки — вот почему так много внутренних видеороликов так и не создаются.

Именно эту формулу Google стремится переписать с помощью Gemini Omni Flash, первой модели в своем новом семействе «Omni», которая сейчас предлагается разработчикам и корпоративным клиентам через API после дебюта для потребителей на I/O 2026. Google позиционирует это семейство как возможность создавать что угодно «из любого источника», начиная с видео. Но ключевое интерактивное взаимодействие заключается не просто в более четкой подсказке «текст — видео». Это возможность редактировать готовый клип посредством диалога.

Когда модель была запущена в мае, анализ VentureBeat, проведенный среди предприятий, выявил подвох: отсутствие программного интерфейса делало Omni инструментом для потребителей и продвинутых пользователей, а не для производственных целей. Внедрение API меняет это. Оно предоставляет возможность редактирования в режиме диалога командам маркетинга и обучения и развития, которые создают наибольшее количество видеороликов в организации.

Суть предложения: конвейер из пяти инструментов сводится к одному разговору.

До сих пор многие команды создавали видеоролики с использованием ИИ сложным путем, объединяя модель обработки текста и изображений, модель преобразования изображений в видео, отдельный инструмент синхронизации губ и генератор голоса, каждый со своим собственным контрактом, выставлением счетов и путем передачи данных.

Аргумент Omni в пользу корпоративной модели заключается в унификации: единая модель, которая принимает текст, изображения и видео и возвращает готовый клип с синхронизированным звуком.

Фактор простоты — это то, что лица, принимающие решения, должны учитывать в первую очередь. Объединение нескольких отдельных инструментов в одну модель означает меньшее количество поставщиков и единое место для мониторинга результатов и обеспечения соблюдения правил обработки данных. Для организации, которая избегала генеративного видео, потому что объединение инструментов не оправдывало накладных расходов, ситуация меняется.

При использовании диалогового редактирования каждая инструкция основывается на предыдущей, поэтому маркетолог может изменить освещение предметного снимка, перекомпоновать его или сменить одежду, не создавая все заново и не теряя уже удачные моменты. Это разница между заказом повторной съемки и отправкой уведомления.

Мультимодальные ссылки и физический движок для брендовых элементов

Omni принимает гораздо больше, чем просто текстовую подсказку. Помимо слов, описывающих желаемый результат, вы можете предоставить несколько эталонных изображений и существующих видеороликов, и программа учтет эти особенности при создании модели. Передайте ей фотографию конкретного объекта, попросите модель разместить этот объект в сцене, и она воспроизведет реальную окраску и приблизительную форму объекта, вместо того чтобы создавать универсальную замену. Хотя совпадение может быть не идеальным, оно достаточно близко, чтобы модель была узнаваемой. Именно этот контроль на основе эталонных данных делает функцию коммерчески привлекательной: фотографию продукта, логотип бренда или конкретное местоположение можно добавить в качестве ингредиента, а не описывать в подсказке и надеяться на результат.

Два из четырех выделенных сильных сторон Google напрямую связаны с корпоративной работой. Первая — это модель окружающего мира, понимание системой поведения физических сцен. Добавьте к существующему кадру легкий дождь и лужи, и она отобразит отражения людей и объектов на мокром асфальте — своего рода физическую согласованность, которая отличает реальные кадры от очевидного видео, созданного с помощью ИИ.

Вторая функция — вставка текста и логотипа. Наведите курсор на сцену, полную вывесок, и программа сможет переписать эти вывески на другом языке или на языке выбранного вами бренда, и даже вставить логотип компании. Результаты не безупречны: в ходе тестирования отслеживание вывесок в сложных сценах не всегда было идеальным, и некоторый текст между кадрами возвращался к исходному языку. Для обучающих видеороликов, требующих экранных надписей, или рекламных роликов, в которых логотип должен быть размещен в сцене, эта функция заслуживает внимания, и это напоминание о том, что результат все равно должен быть проверен человеком перед выпуском.

API для взаимодействия и то, где ограничения всё ещё дают о себе знать.

Внутри это работает на новом API взаимодействия Google, интерфейсе с сохранением состояния, созданном для многоэтапных задач, а не для открытого чата. Каждый этап переносит предыдущее видео и его ссылки, что позволяет последовательно накапливать изменения. Разработчики могут создавать цепочки изменений. Они могут создать клип, отредактировать кошку, превратив котенка в пуму, изменить стиль видео на ретро-стиль 8-бит, а затем на акварельный, и сохранять каждую версию для последующего создания ответвлений.

Ограничения реальны, и их стоит учитывать при планировании бюджета. В настоящее время продолжительность клипов ограничена 10 секундами, согласно опубликованной модели. Чтобы сделать клип длиннее, нужно создавать фрагменты и редактировать их вместе. Загруженные видеоматериалы также можно редактировать, если их продолжительность не превышает 10 секунд и пользователь обладает правами на них. В собственной модели Google откровенно говорится, что обеспечение согласованности между правками и корректное отображение текста остаются открытыми проблемами.

Ограждения, водяные знаки и черта, которую Google не переступит.

Для директора по информационной безопасности демонстрационные версии имеют меньшее значение, чем работа по проверке происхождения контента, поставляемая вместе с моделью. Каждый клип Omni содержит водяной знак SynthID от Google, Google расширяет использование учетных данных контента C2PA в своих инструментах генерации контента, а также запустила API для обнаружения контента с помощью ИИ, который помечает медиаконтент, созданный с помощью ИИ, как от Google, так и от других поставщиков.

Google также провела четкую границу. Модель не будет брать статичное фото человека и аудиоклип и синхронизировать их речь с губами, что является явным шагом для ограничения использования дипфейков. Однако она будет брать запись разговора и переводить ее на другой язык, что является полезным способом локализации глобального обучающего контента. Для регулируемых предприятий эти ограничения и встроенная информация о происхождении являются скорее преимуществами, чем препятствием.

VB Transform · 14–15 июля · Менло-Парк · Инфраструктура для вывода данных и искусственного интеллекта

Компания GM добилась 300-процентного роста числа объединенных PR-кампаний, перепроектировав свою архитектуру для агентов. Вот что они создали.

На конференции Transform в рамках направления «Инфраструктура» рассматриваются вопросы генерации видео в реальном времени, стеки межмашинного анализа и то, что действительно необходимо для запуска агентов в масштабах предприятия.

Ознакомиться с полной программой →

Цифры: недорого, только в разрешении 720p и (предварительно) занимает первое место.

Цена была объявлена одновременно с API, и она весьма привлекательна. Omni Flash стоит 0,10 доллара за секунду сгенерированного видео в разрешении 720p, что составляет примерно доллар за десятисекундный ролик. Это соответствует Veo 3.1 Fast при том же разрешении, вдвое превосходит Veo 3.1 Lite и на три четверти дешевле стандартного Veo 3.1.

В секунду (доллар США)	Gemini Omni Flash	Veo 3.1 Lite	Veo 3.1 Fast	Veo 3.1
720p	0,10 доллара	0,05 доллара	0,10 доллара	0,40 доллара
1080p	н/д	0,08 доллара	0,12 доллара	0,40 доллара
4K	н/д	н/д	0,30 доллара	0,60 доллара

Однако таблица также выявляет подвох. Omni Flash генерирует только 720p. Нет вариантов 1080p или 4K, в то время как тарифные планы Veo масштабируются до 4K. Для внутреннего обучения и большинства видеороликов для социальных сетей 720p вполне достаточно. Но для работы с премиальными брендами, предназначенной для больших экранов, это реальный потолок, и именно поэтому Veo 3.1 до сих пор актуален.

Видеоролики длятся от 3 до 10 секунд в разрешении 720p, в альбомной (16:9) или портретной (9:16) ориентации. В качестве эталонных входных данных модель принимает до семи изображений и до трех видеоклипов длительностью не более трех секунд. Пока что она не принимает аудио в качестве входного сигнала, хотя генерирует звук одновременно с видео. Выходной сигнал — стандартный MP4, и каждый клип поставляется с водяным знаком SynthID и учетными данными C2PA.

Что касается качества, первые результаты говорят сами за себя. В рейтинге LMArena Text-to-Video Arena, где пользователи голосуют за сравнительные результаты работы конкурирующих моделей, Omni Flash заняла первое место с результатом 1527 баллов.

Что это значит для бюджетов и чего еще не хватает.

Имея на руках реальные цены, история итераций становится конкретной. Каждая правка диалога — это новая генерация, за которую вы платите, поэтому сессия с большим количеством правок все равно обходится примерно в доллар за каждые десять секунд в разрешении 720p. Модель с сохранением состояния меняет не стоимость правки, а количество потраченных впустую правок: поскольку контекст сохраняется между репликами, эти генерации идут на доработку дубля, который в основном работает, вместо того, чтобы начинать с пустого места и надеяться, что следующая попытка окажется удачной.

Omni не одинок в этой области. Veo 3.1 остается вариантом Google для профессионального использования, когда требуется более высокое разрешение, и конкуренты от Bytedance, Alibaba и OpenAI стремятся получить аналогичные возможности. Omni добавляет саму функцию редактирования: возможность рассматривать видео как «живой документ», а не как одноразовый рендер.

Transform: Посмотрите, кто участвует в CTA

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly Еженедельник AGI Еженедельник по безопасности Еженедельник по инфраструктуре данных Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Суть предложения: конвейер из пяти инструментов сводится к одному разговору.

Мультимодальные ссылки и физический движок для брендовых элементов

API для взаимодействия и то, где ограничения всё ещё дают о себе знать.

Ограждения, водяные знаки и черта, которую Google не переступит.

Цифры: недорого, только в разрешении 720p и (предварительно) занимает первое место.

Что это значит для бюджетов и чего еще не хватает.

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

Слушания подкомитета DOGE по вопросу изменения погоды стали рассадником теорий заговора

ИИ года 2025

Хватит мучить ChatGPT. Почему ваш промпт не сработает

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email