Глубокое погружение в реальные примеры: от закрытых помещений и городских улиц до всемирно известных достопримечательностей
Делиться

В ходе этой серии статей о многомодальных системах ИИ мы перешли от общего обзора к техническим деталям, определяющим архитектуру.
В первой статье « За пределами стекирования моделей: архитектурные принципы, обеспечивающие работу мультимодальных систем искусственного интеллекта » я заложил основу, показав, как многоуровневая модульная конструкция помогает разбить сложные проблемы на управляемые части.
Во второй статье « Четыре разума ИИ в унисон: глубокое погружение в мультимодальное слияние ИИ » я более подробно рассмотрел алгоритмы, лежащие в основе системы, показав, как четыре модели ИИ слаженно работают вместе.
Если вы еще не читали предыдущие статьи, я бы рекомендовал начать с них, чтобы получить полную картину.
Теперь пора перейти от теории к практике. В этой заключительной главе серии мы рассмотрим самый важный вопрос: насколько хорошо система работает в реальных условиях?
Чтобы ответить на этот вопрос, я расскажу вам о трёх тщательно отобранных реальных сценариях, которые проверят возможности VisionScout по пониманию обстановки. Каждый из них рассматривает коллективный интеллект системы с разных сторон:
- Интерьер: Взгляд в гостиную дома, где я покажу, как система определяет функциональные зоны и понимает пространственные отношения, генерируя описания, которые соответствуют интуиции человека.
- Сцена на открытом воздухе: анализ городского перекрестка в сумерках, показывающий, как система справляется со сложным освещением, обнаруживает взаимодействие объектов и даже делает выводы о потенциальных проблемах безопасности.
- Распознавание достопримечательностей: Наконец, мы протестируем возможности системы на примере всемирно известной достопримечательности и посмотрим, как она использует внешние знания для обогащения контекста за пределами того, что видно.
Эти примеры показывают, как четыре модели ИИ работают вместе в единой структуре, обеспечивая такое понимание обстановки, которое ни одна модель не могла бы обеспечить сама по себе.
💡 Прежде чем углубляться в конкретные случаи, позвольте мне описать техническую основу этой статьи. VisionScout делает акцент на гибкости в выборе модели, поддерживая всё: от лёгкой YOLOv8n до высокоточной YOLOv8x. Для достижения наилучшего баланса между точностью и эффективностью выполнения во всех последующих анализах случаев YOLOv8m будет использоваться в качестве базовой модели.
1. Анализ внутреннего пространства: интерпретация пространственных образов в гостиных
1.1 Обнаружение объектов и пространственное понимание


Начнем с типичной домашней гостиной.
Процесс анализа системы начинается с базового обнаружения объекта.
Как показано на панели «Детали обнаружения», движок YOLOv8 точно идентифицирует девять объектов со средней степенью достоверности 0,62. Среди них три дивана, два растения в горшках, телевизор и несколько стульев — ключевые элементы, используемые для дальнейшего анализа сцены.
Для упрощения визуальной интерпретации система группирует обнаруженные предметы в более широкие, предопределённые категории, такие как мебель, электроника или транспортные средства. Каждой категории присваивается уникальный, единый цвет. Такая систематическая цветовая кодировка помогает пользователям быстро и наглядно оценить расположение и типы объектов.
Но понимание сцены — это не просто знание присутствующих объектов. Истинная сила системы заключается в её способности генерировать окончательные описания, которые кажутся интуитивно понятными и похожими на человеческие.
Здесь языковая модель системы (Llama 3.2 ) собирает информацию из всех других модулей, объектов, освещения, пространственных отношений и сплетает ее в плавное, связное повествование.
Например, система не просто констатирует наличие диванов и телевизора. Она подразумевает, что, поскольку диваны занимают значительную часть пространства, а телевизор расположен в центре внимания, система анализирует основную жилую зону комнаты.
Это показывает, что система не просто обнаруживает объекты, она понимает , как они функционируют в пространстве.
Соединяя все точки, он превращает разрозненные сигналы в осмысленную интерпретацию сцены, демонстрируя, как многоуровневое восприятие приводит к более глубокому пониманию.
1.2 Анализ окружающей среды и выводы о деятельности


Система не просто описывает объекты, она количественно оценивает и выводит абстрактные концепции, выходящие за рамки поверхностного распознавания.
Панели «Возможные действия» и «Проблемы безопасности» демонстрируют эту функцию в действии. Система определяет вероятные действия, такие как чтение, общение и просмотр телевизора, основываясь на типах объектов и их расположении. Она также не отмечает никаких проблем безопасности, подтверждая классификацию места происшествия как низкорискованного.
Условия освещения раскрывают ещё один технический нюанс. Система классифицирует сцену как « в помещении, яркое, искусственное освещение », что подтверждается подробными количественными данными. Средняя яркость 143,48 и стандартное отклонение 70,24 помогают оценить равномерность и качество освещения.
Цветовые метрики также подтверждают описание « нейтральных тонов», поскольку низкие значения тёплых (0,045) и холодных (0,100) цветовых соотношений соответствуют этой характеристике. Цветовой анализ включает более тонкие детали, такие как соотношение синего 0,65 и жёлто-оранжевого 0,06.
Этот процесс отражает основную возможность фреймворка: преобразование необработанных визуальных входных данных в структурированные данные, а затем использование этих данных для выведения высокоуровневых концепций, таких как атмосфера и активность, связывая восприятие и семантическое понимание .
Источник: towardsdatascience.com



























