Современный офис с зелеными растениями, стеклянными стенами и стильными рабочими местами.

Бывшие сотрудники Google создают инфраструктуру, которая поможет компаниям анализировать свои видеоданные.

30229e2f23035b9f4d816e50c3fd116d
Источник изображения: InfiniMind

Компании генерируют больше видеоконтента, чем когда-либо. От многолетних архивов телевещания до тысяч камер, установленных в магазинах, и бесчисленных часов отснятого материала — большая его часть просто лежит неиспользованной на серверах, не просматривается и не анализируется. Это так называемые «теневые данные»: огромный, неиспользованный ресурс, который компании собирают автоматически, но почти никогда не используют осмысленным образом.

Для решения этой проблемы Аза Кай (генеральный директор) и Хираку Янагита (операционный директор), два бывших сотрудника Google, почти десять лет проработавшие вместе в Google Japan, решили создать собственное решение. Дуэт стал соучредителем InfiniMind, токийского стартапа, разрабатывающего инфраструктуру, которая преобразует петабайты непросмотренного видео и аудио в структурированные, доступные для запросов бизнес-данные.

«Мы с моим соучредителем, который десять лет руководил разработкой решений для брендинга и обработки данных в Google Japan, предвидели этот переломный момент еще в Google», — сказал Кай. К 2024 году технология созрела, и рыночный спрос стал достаточно очевидным, чтобы соучредители почувствовали необходимость создать компанию самостоятельно, добавил он.

Кай, ранее работавший в Google Japan в отделах облачных вычислений, машинного обучения, рекламных систем и моделей рекомендаций видео, а позже возглавлявший команды специалистов по анализу данных, объяснил, что существующие решения вынуждают к компромиссу. Более ранние подходы позволяли маркировать объекты в отдельных кадрах, но не могли отслеживать повествование, понимать причинно-следственные связи или отвечать на сложные вопросы о видеоконтенте. Для клиентов с многолетними архивами телевещания и петабайтами видеоматериалов даже основные вопросы об их контенте часто оставались без ответа.

Реальные изменения произошли благодаря прогрессу в моделях обработки изображений и языка в период с 2021 по 2023 год. Именно тогда, как отметил Кай, видеоискусственный интеллект начал выходить за рамки простой маркировки объектов. Снижение стоимости графических процессоров и ежегодный прирост производительности примерно на 15-20% за последнее десятилетие сыграли свою роль, но более важной особенностью стали возможности — до недавнего времени модели просто не могли справиться с этой задачей, сказал он TechCrunch.

Компания InfiniMind недавно привлекла 5,8 млн долларов в рамках посевного финансирования, возглавляемого UTEC, а также при участии CX2, Headline Asia, Chiba Dojo и исследователя в области ИИ из a16z Scout. Компания переносит свою штаб-квартиру в США, продолжая при этом работу офиса в Японии. Япония предоставила идеальную площадку для тестирования: мощное оборудование, талантливые инженеры и благоприятная экосистема для стартапов. Это позволяет команде доработать свою технологию в соответствии с требованиями требовательных клиентов, прежде чем выходить на глобальный рынок.

Первый продукт компании, TV Pulse, был запущен в Японии в апреле 2025 года. Эта платформа на базе искусственного интеллекта анализирует телевизионный контент в режиме реального времени, помогая медиа- и розничным компаниям «отслеживать охват продукции, присутствие бренда, настроения клиентов и влияние PR», как заявляет стартап. После пилотных программ с крупными телевещательными компаниями и агентствами у компании уже есть платящие клиенты, включая оптовых продавцов и медиакомпании.

Теперь InfiniMind готова к выходу на международный рынок. Ее флагманский продукт, DeepFrame, платформа для анализа видеоматериалов большого формата, способная обрабатывать 200 часов видео для точного определения конкретных сцен, выступающих или событий, планируется выпустить в бета-версии в марте, а полноценный запуск состоится в апреле 2026 года, сообщил Кай.

f1914098111e66f65d11428d18984e77
Источник изображения: infinimind

Рынок видеоанализа сильно фрагментирован. По словам Кая, такие компании, как TwelveLabs, предоставляют универсальные API для понимания видеоконтента широкому кругу пользователей, включая потребителей, продвинутых пользователей и предприятия, в то время как InfiniMind специализируется на корпоративных сценариях использования, включая мониторинг, безопасность, защиту и анализ видеоконтента для получения более глубоких аналитических данных.

«Наше решение не требует написания кода; клиенты предоставляют свои данные, а наша система обрабатывает их, предоставляя полезные аналитические выводы», — сказал Кай. «Мы также интегрируем аудио, звук и распознавание речи, а не только визуальные данные. Наша система может обрабатывать видео неограниченной длины, а экономичность является важным конкурентным преимуществом. Большинство существующих решений отдают приоритет точности или конкретным сценариям использования, но не решают проблемы стоимости».

Полученные средства помогут команде продолжить разработку модели DeepFrame, расширить инженерную инфраструктуру, нанять больше инженеров и привлечь дополнительных клиентов в Японии и США.

«Это захватывающая область, один из путей к созданию искусственного общего интеллекта», — сказал Кай. «Понимание общего видеоинтеллекта — это понимание реальности. Промышленные приложения важны, но наша конечная цель — расширить границы технологий, чтобы лучше понимать реальность и помогать людям принимать более взвешенные решения».

Источник: techcrunch.com

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Трое людей используют смартфоны на складе, один в жилете, все с беспроводными наушниками.
ideipro logotyp
Родео: ковбой на скачущей лошади в загоне, стильная обработка изображения.
ideipro logotyp
ideipro logotyp
Вопросы и ответы: MIT SHASS и будущее образования в эпоху искусственного интеллекта
Вопросы и ответы: MIT SHASS и будущее образования в эпоху искусственного интеллекта
Изображение мозга с цифровыми элементами, нейронные сети и звуковые волны.
ideipro logotyp
Image Not Found
Трое людей используют смартфоны на складе, один в жилете, все с беспроводными наушниками.

Компания DeepL, известная своими функциями перевода текста, теперь хочет переводить и ваш голос.

Источник изображения: DeepL Компания DeepL, специализирующаяся на переводе и известная своими текстовыми инструментами, сегодня выпустила пакет программного обеспечения для голосового перевода, охватывающий такие сценарии использования, как совещания, мобильные и веб-разговоры, а также групповые беседы для сотрудников, работающих…

Апр 16, 2026
ideipro logotyp

Лучшая камера GoPro (2026): компактная, бюджетная, аксессуары

Вы — герой боевиков, и вам нужна соответствующая камера. Мы поможем вам разобраться во всех моделях, дадим рекомендации по аксессуарам и расскажем о скрытых программных хитростях, которые стоит попробовать. Источник: www.wired.com

Апр 16, 2026
Родео: ковбой на скачущей лошади в загоне, стильная обработка изображения.

Почему мнения об ИИ так разделились

Стефани Арнетт/MIT Technology Review | Getty Images Эта статья первоначально появилась в The Algorithm, нашей еженедельной рассылке об искусственном интеллекте. Чтобы первыми получать подобные статьи на свою электронную почту, подпишитесь здесь. В отрасли, которая не стоит на…

Апр 16, 2026
ideipro logotyp

Вложенное древовидное пространство: геометрическая основа для кофилогении

arXiv:2604.05056v2 Тип объявления: replace-cross Аннотация: Вложенные (или согласованные) филогенетические деревья моделируют коэволюционные системы, в которых одна эволюционная история вложена в другую. Мы вводим геометрическую структуру для таких систем, определяя $sigma$-пространство, пространство модулей полностью вложенных ультраметрических филогенетических деревьев…

Апр 16, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых