Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Четыре плагина и один похороненный MVP: полгода автоматизации монтажа (часть 1/3)

Всем привет! Меня зовут Глеб, я работаю ведущим анимационным и видеодизайнером в in-house команде Cloud.ru.

Сейчас в достаточно длинном формате расскажу, к чему могут привести активные изыскания специалиста по видео, который решил возложить свои обязанности на ИИ.

Думаю, многие видели новости о том, как Claude монтирует многочасовые подкасты за минуту, как за 30 секунд создаётся крутой моушн-дизайн, рилсы на ChatVideo Pro и так далее. Так и я, как бы ни отмахивался, всё чаще стал поглядывать в сторону автоматизации монтажной рутины. Но, будучи одним из главных скептиков AI в компании, в чудодейственную работу искусственного интеллекта я не верил. И всё же решил попробовать. Тут и начался длинный полугодовой путь.

Январь

Начать решил, как я сейчас понимаю, с самого сложного. А почему бы не построить ИИ-стажёра, который заберёт всю рутину? Будем кидать ему простой линейный монтаж — обрезать и склеивать ролики. Такая работа не занимает много времени, но здорово отвлекает от погружения в более интересные задачи.

Разработку начал с простого: оказывается, в DaVinci Resolve есть IntelliScript. Почти всё в коробке. Он сам транскрибирует, тебе остаётся взять текст, поменять местами фрагменты, вырезать лишнее и подгрузить обратно — программа сама по тексту соберёт монтаж. Можно даже упростить: дать Perplexity промпт, и он «смонтирует за тебя», переставит фрагменты в файле, а тебе остаётся только вернуться в DaVinci.

Но сразу вскрылись три проблемы:

  1. DaVinci — вне основного пайплайна работы.
  2. Нельзя работать с несколькими медиафайлами, строго один ролик с текстом.
  3. Плохое понимание русского языка, нет тонкой настройки таймингов, монтаж только по текстовым блокам.

Февраль

Здесь родилась невероятная идея: а почему бы не собрать своё приложение (для начала на локальных моделях)? Проблема ИИ-монтажа казалась очевидной: LLM понимает текст, но не понимает видео и аудио. А ведь медиафайлы можно конвертировать в текст — прогнать через всевозможные анализаторы, собрать все метаданные, инструментов хватает. Почему никто не додумался до этого? (создать мультимодальную модель?! ага).

Разработку я начинал с нулевыми знаниями программирования. Чтобы вы понимали: из подписок на тот момент у меня была только Perplexity. Процесс выглядел так — пишу запрос, чат выдаёт код и команду в терминал, я вставляю код в текстовый редактор (под конец разработки открыл для себя Cursor, без подписки) и присылаю ему ответ из терминала. Через 30 минут контекст заканчивается — и снова всё сначала.

По задумке приложение должно было работать в трёх отдельных stand-alone-модулях:

  1. Анализ. Прогоняем все медиафайлы и собираем весь скоуп данных в JSON-ы: транскрибация, анализ аудио и Vision-анализ сразу. 30+ минут работы на локальных моделях на обработку минутного ролика.
  2. План (изначально казался самым сложным модулем). LLM анализирует этот массив данных. Ты пишешь промпт, а ИИ собирает новый JSON с ПОСЛЕДОВАТЕЛЬНОСТЬЮ — куда сразу покадрово вшивает, когда какой медиафайл вставлять. Ведь даже условный 1.png после анализа был записан как «график с инфографикой о теме 1», а в транскрибации чётко: «сейчас расскажу о теме 1». Что тут сложного, да?
  3. XML-экспорт (изначально казался самым простым модулем, ахаха). Скрипт берёт JSON после «плана» и собирает XML-файл, который ты вставляешь уже в любую монтажку. В планах было автоматизировать и этот процесс, чтобы импорт был в один клик. Удивительное открытие: XML — очень архаичный формат, и по факту ни одна из доступных мне LLM не умела писать его так, чтобы Premiere Pro считывал без ошибки. Поэтому тесты опять шли в DaVinci.

И эта штука заработала. Примерно 35 минут работы — и одноминутный ролик собран. Криво-косо, но собран: порезан по смыслу, музыка, картинки, intro и outro расставлены. Дальше началась отладка — и тут я упёрся в стену. То, что было собрано в первом модуле, по факту оказалось эмуляцией мультимодальной LLM, и даже перенос всего модуля на облачные мощности не давал прироста в качестве. Контекст был огромным, а пайплайн «анализа» и «плана» в попытке структурировать работу раздувался всё сильнее. В итоге я решил оставить это недо-MVP до лучших времён (похоронено).

Март

Тут я решил остановиться и подумать. Сделать всё и сразу, не понимая, как что работает, — путь в никуда. Стоит начать с малого. Я набросал план и стал писать простые скрипты и плагины, просто чтобы сократить количество кликов. Например, библиотека брендовых цветов из брендбука — чтобы не копировать и не хранить PNG из Figma, а красить в After Effects (Ae) в один клик. Тогда же оформил подписку на Cursor, и пайплайн разработки устаканился: ресёрч и создание MD-файлов в Perplexity, разработка в агентах Cursor. Результат — за один вечер готовый, рабочий проект.

Продолжение во 2 и 3 частях

Источник: vc.ru

✅ Найденные теги: Mvp, новости, Один, Плагина, Похороненный, Четыре

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Используем фотограмметрию для распознавания и геолокации объекта Архив рубрики ~Лента новостей~: Искусственный интеллект в разработке видеоигр: как он меняет индустрию. Архив рубрики ~Лента новостей~: Изображение тайской полиции в блестящих платьях с подозреваемым в наручниках оказалось подделкой, созданной искусственным интеллектом. Архив рубрики ~Лента новостей~: ЭЛТ-монитор разгонял электроны до 30% скорости света. Это был ускоритель частиц на 25 кВ Архив рубрики ~Лента новостей~: Акции SpaceX на самом деле могут оказаться ужасной инвестицией Архив рубрики ~Лента новостей~: [Перевод] Требует ли мышление наличия чувств и сенсорики? От чистых мыслителей к большим языковым моделям Архив рубрики ~Лента новостей~: Трансплантаты из донорских клеток частично восстановили миокард при сердечной недостаточности. Результаты получены в пилотных клинических испытаниях Архив рубрики ~Лента новостей~: Отрубленные конечности морского огурца, похоже, не умирают.