Четыре плагина и один похороненный MVP: полгода автоматизации монтажа (часть 1/3)

01.06.2026 ideipro.ru

Всем привет! Меня зовут Глеб, я работаю ведущим анимационным и видеодизайнером в in-house команде Cloud.ru.

Сейчас в достаточно длинном формате расскажу, к чему могут привести активные изыскания специалиста по видео, который решил возложить свои обязанности на ИИ.

Думаю, многие видели новости о том, как Claude монтирует многочасовые подкасты за минуту, как за 30 секунд создаётся крутой моушн-дизайн, рилсы на ChatVideo Pro и так далее. Так и я, как бы ни отмахивался, всё чаще стал поглядывать в сторону автоматизации монтажной рутины. Но, будучи одним из главных скептиков AI в компании, в чудодейственную работу искусственного интеллекта я не верил. И всё же решил попробовать. Тут и начался длинный полугодовой путь.

Начать решил, как я сейчас понимаю, с самого сложного. А почему бы не построить ИИ-стажёра, который заберёт всю рутину? Будем кидать ему простой линейный монтаж — обрезать и склеивать ролики. Такая работа не занимает много времени, но здорово отвлекает от погружения в более интересные задачи.

Разработку начал с простого: оказывается, в DaVinci Resolve есть IntelliScript. Почти всё в коробке. Он сам транскрибирует, тебе остаётся взять текст, поменять местами фрагменты, вырезать лишнее и подгрузить обратно — программа сама по тексту соберёт монтаж. Можно даже упростить: дать Perplexity промпт, и он «смонтирует за тебя», переставит фрагменты в файле, а тебе остаётся только вернуться в DaVinci.

Но сразу вскрылись три проблемы:

DaVinci — вне основного пайплайна работы.
Нельзя работать с несколькими медиафайлами, строго один ролик с текстом.
Плохое понимание русского языка, нет тонкой настройки таймингов, монтаж только по текстовым блокам.

Здесь родилась невероятная идея: а почему бы не собрать своё приложение (для начала на локальных моделях)? Проблема ИИ-монтажа казалась очевидной: LLM понимает текст, но не понимает видео и аудио. А ведь медиафайлы можно конвертировать в текст — прогнать через всевозможные анализаторы, собрать все метаданные, инструментов хватает. Почему никто не додумался до этого? (создать мультимодальную модель?! ага).

Разработку я начинал с нулевыми знаниями программирования. Чтобы вы понимали: из подписок на тот момент у меня была только Perplexity. Процесс выглядел так — пишу запрос, чат выдаёт код и команду в терминал, я вставляю код в текстовый редактор (под конец разработки открыл для себя Cursor, без подписки) и присылаю ему ответ из терминала. Через 30 минут контекст заканчивается — и снова всё сначала.

По задумке приложение должно было работать в трёх отдельных stand-alone-модулях:

Анализ. Прогоняем все медиафайлы и собираем весь скоуп данных в JSON-ы: транскрибация, анализ аудио и Vision-анализ сразу. 30+ минут работы на локальных моделях на обработку минутного ролика.
План (изначально казался самым сложным модулем). LLM анализирует этот массив данных. Ты пишешь промпт, а ИИ собирает новый JSON с ПОСЛЕДОВАТЕЛЬНОСТЬЮ — куда сразу покадрово вшивает, когда какой медиафайл вставлять. Ведь даже условный 1.png после анализа был записан как «график с инфографикой о теме 1», а в транскрибации чётко: «сейчас расскажу о теме 1». Что тут сложного, да?
XML-экспорт (изначально казался самым простым модулем, ахаха). Скрипт берёт JSON после «плана» и собирает XML-файл, который ты вставляешь уже в любую монтажку. В планах было автоматизировать и этот процесс, чтобы импорт был в один клик. Удивительное открытие: XML — очень архаичный формат, и по факту ни одна из доступных мне LLM не умела писать его так, чтобы Premiere Pro считывал без ошибки. Поэтому тесты опять шли в DaVinci.

И эта штука заработала. Примерно 35 минут работы — и одноминутный ролик собран. Криво-косо, но собран: порезан по смыслу, музыка, картинки, intro и outro расставлены. Дальше началась отладка — и тут я упёрся в стену. То, что было собрано в первом модуле, по факту оказалось эмуляцией мультимодальной LLM, и даже перенос всего модуля на облачные мощности не давал прироста в качестве. Контекст был огромным, а пайплайн «анализа» и «плана» в попытке структурировать работу раздувался всё сильнее. В итоге я решил оставить это недо-MVP до лучших времён (похоронено).

Тут я решил остановиться и подумать. Сделать всё и сразу, не понимая, как что работает, — путь в никуда. Стоит начать с малого. Я набросал план и стал писать простые скрипты и плагины, просто чтобы сократить количество кликов. Например, библиотека брендовых цветов из брендбука — чтобы не копировать и не хранить PNG из Figma, а красить в After Effects (Ae) в один клик. Тогда же оформил подписку на Cursor, и пайплайн разработки устаканился: ресёрч и создание MD-файлов в Perplexity, разработка в агентах Cursor. Результат — за один вечер готовый, рабочий проект.

Продолжение во 2 и 3 частях

Источник: vc.ru

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Четыре плагина и один похороненный MVP: полгода автоматизации монтажа (часть 1/3)

Январь

Февраль

Март

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды и руководства по ИИ

Январь

Февраль

Март

Похожие записи

Похожие записи

Настольное приложение Facebook Messenger больше не существует.

В Армении запустили один из самых передовых AI-дата-центров мира

С неба — в алмазы: экологичные системы отопления и горячего водоснабжения станут доступнее благодаря алмазной наножидкости

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI