
Компании генерируют больше видеоконтента, чем когда-либо. От многолетних архивов телевещания до тысяч камер, установленных в магазинах, и бесчисленных часов отснятого материала — большая его часть просто лежит неиспользованной на серверах, не просматривается и не анализируется. Это так называемые «теневые данные»: огромный, неиспользованный ресурс, который компании собирают автоматически, но почти никогда не используют осмысленным образом.
Для решения этой проблемы Аза Кай (генеральный директор) и Хираку Янагита (операционный директор), два бывших сотрудника Google, почти десять лет проработавшие вместе в Google Japan, решили создать собственное решение. Дуэт стал соучредителем InfiniMind, токийского стартапа, разрабатывающего инфраструктуру, которая преобразует петабайты непросмотренного видео и аудио в структурированные, доступные для запросов бизнес-данные.
«Мы с моим соучредителем, который десять лет руководил разработкой решений для брендинга и обработки данных в Google Japan, предвидели этот переломный момент еще в Google», — сказал Кай. К 2024 году технология созрела, и рыночный спрос стал достаточно очевидным, чтобы соучредители почувствовали необходимость создать компанию самостоятельно, добавил он.
Кай, ранее работавший в Google Japan в отделах облачных вычислений, машинного обучения, рекламных систем и моделей рекомендаций видео, а позже возглавлявший команды специалистов по анализу данных, объяснил, что существующие решения вынуждают к компромиссу. Более ранние подходы позволяли маркировать объекты в отдельных кадрах, но не могли отслеживать повествование, понимать причинно-следственные связи или отвечать на сложные вопросы о видеоконтенте. Для клиентов с многолетними архивами телевещания и петабайтами видеоматериалов даже основные вопросы об их контенте часто оставались без ответа.
Реальные изменения произошли благодаря прогрессу в моделях обработки изображений и языка в период с 2021 по 2023 год. Именно тогда, как отметил Кай, видеоискусственный интеллект начал выходить за рамки простой маркировки объектов. Снижение стоимости графических процессоров и ежегодный прирост производительности примерно на 15-20% за последнее десятилетие сыграли свою роль, но более важной особенностью стали возможности — до недавнего времени модели просто не могли справиться с этой задачей, сказал он TechCrunch.
Компания InfiniMind недавно привлекла 5,8 млн долларов в рамках посевного финансирования, возглавляемого UTEC, а также при участии CX2, Headline Asia, Chiba Dojo и исследователя в области ИИ из a16z Scout. Компания переносит свою штаб-квартиру в США, продолжая при этом работу офиса в Японии. Япония предоставила идеальную площадку для тестирования: мощное оборудование, талантливые инженеры и благоприятная экосистема для стартапов. Это позволяет команде доработать свою технологию в соответствии с требованиями требовательных клиентов, прежде чем выходить на глобальный рынок.
Первый продукт компании, TV Pulse, был запущен в Японии в апреле 2025 года. Эта платформа на базе искусственного интеллекта анализирует телевизионный контент в режиме реального времени, помогая медиа- и розничным компаниям «отслеживать охват продукции, присутствие бренда, настроения клиентов и влияние PR», как заявляет стартап. После пилотных программ с крупными телевещательными компаниями и агентствами у компании уже есть платящие клиенты, включая оптовых продавцов и медиакомпании.
Теперь InfiniMind готова к выходу на международный рынок. Ее флагманский продукт, DeepFrame, платформа для анализа видеоматериалов большого формата, способная обрабатывать 200 часов видео для точного определения конкретных сцен, выступающих или событий, планируется выпустить в бета-версии в марте, а полноценный запуск состоится в апреле 2026 года, сообщил Кай.

Рынок видеоанализа сильно фрагментирован. По словам Кая, такие компании, как TwelveLabs, предоставляют универсальные API для понимания видеоконтента широкому кругу пользователей, включая потребителей, продвинутых пользователей и предприятия, в то время как InfiniMind специализируется на корпоративных сценариях использования, включая мониторинг, безопасность, защиту и анализ видеоконтента для получения более глубоких аналитических данных.
«Наше решение не требует написания кода; клиенты предоставляют свои данные, а наша система обрабатывает их, предоставляя полезные аналитические выводы», — сказал Кай. «Мы также интегрируем аудио, звук и распознавание речи, а не только визуальные данные. Наша система может обрабатывать видео неограниченной длины, а экономичность является важным конкурентным преимуществом. Большинство существующих решений отдают приоритет точности или конкретным сценариям использования, но не решают проблемы стоимости».
Полученные средства помогут команде продолжить разработку модели DeepFrame, расширить инженерную инфраструктуру, нанять больше инженеров и привлечь дополнительных клиентов в Японии и США.
«Это захватывающая область, один из путей к созданию искусственного общего интеллекта», — сказал Кай. «Понимание общего видеоинтеллекта — это понимание реальности. Промышленные приложения важны, но наша конечная цель — расширить границы технологий, чтобы лучше понимать реальность и помогать людям принимать более взвешенные решения».
Источник: techcrunch.com























