Image

Упрощение подсчета объектов с помощью VisionAgent

62279ae5d5e7851db00a0dc52211d6a2

Подсчет объектов с помощью визуального ИИ имеет широкий спектр применения в многочисленных областях. В розничной торговле автоматизированные системы аудита полок подсчитывают продукты для поддержания оптимального уровня запасов. В производстве подсчет компонентов на сборочных линиях обеспечивает контроль качества и выявляет аномалии производства. Медицинские исследователи используют подсчет клеток на микроскопических изображениях для диагностики заболеваний и разработки лекарств. В сфере безопасности подсчет людей в многолюдных помещениях помогает контролировать уровень заполняемости и обеспечивает соблюдение правил безопасности.

Традиционно подсчет объектов с помощью компьютерного зрения был сложным процессом, требующим значительных знаний. Разработчики обычно собирают и маркируют обширные наборы данных, выбирают и обучают модели машинного обучения (часто CNN) и реализуют логику постобработки. Этот подход включает предварительную обработку данных, проектирование архитектуры модели, проверку и кодирование развертывания. Многоэтапный рабочий процесс делает внедрение такого решения трудоемким и ресурсоемким для многих организаций.

VisionAgent, генеративный конструктор приложений Visual AI от LandingAI, делает такие задачи, как подсчет объектов для обычных объектов, довольно простыми, используя современные модели языка зрения (модели SOTA VLM) и объединяя их с агентской структурой для генерации пользовательского кода для вашего варианта использования. Этот инновационный подход запускает ваш проект за считанные минуты по сравнению с бенчмаркингом различных моделей для вашего варианта использования и инвестированием значительного времени и ресурсов в адаптацию новых моделей для вашей экосистемы.

Давайте рассмотрим практическое применение: управление запасами банок с газировкой. Представьте, что вам поручено создать систему для мониторинга запасов банок с газировкой на складе. Цель состоит в том, чтобы автоматизировать расчет процента запасов на основе максимальной вместимости в 35 банок и определить, необходимо ли пополнение запасов.

Быстрый VisionAgent с четкими требованиями к проекту

При подходе к этому варианту использования визуального ИИ крайне важно сформулировать четкие, подробные инструкции — так же, как вы бы это сделали для младшего инженера-программиста. Для нашей системы инвентаризации банок с газировкой мы хотим, чтобы модель ИИ идентифицировала и подсчитывала банки, вычисляла процент инвентаря на основе нашей полной емкости в 60 банок и предоставляла статус, указывающий, в порядке ли инвентарь или его необходимо пополнить.

Такой уровень специфичности помогает VisionAgent генерировать более точный и полезный код, гарантируя, что вывод будет точно соответствовать нашим потребностям.

e63d37b3b15b7b805101a2c989844ff2

Начнем с более простого, но точного примера создания прототипа с помощью VisionAgent для случая использования банки с газировкой:

«Напишите программу, которая подсчитывает банки с газировкой на изображении. Программа должна выводить количество, рисовать ограничивающие рамки вокруг каждой обнаруженной банки и отображать оценку достоверности для каждого прогноза. Используйте порог 0,2»

Подытожим эти шаги в следующем видео:

Прототип решения

После того, как мы запросили VisionAgent, он генерирует код, который соответствует нашему варианту использования. Этот сгенерированный код служит отправной точкой, которую мы можем запустить, оценить и итеративно улучшить. На этом этапе прототипирования мы можем экспериментировать с различными формулировками в нашем запросе, корректировать специфику наших инструкций или настраивать требования к выходным данным.

Цель состоит в том, чтобы быстро итерировать, пока VisionAgent не сгенерирует код, который точно обнаруживает и подсчитывает банки с газировкой, вычисляет уровни запасов и предоставляет нужный нам статус. Этот процесс прототипирования не только помогает нам усовершенствовать наше решение, но и позволяет нам понять возможности и ограничения VisionAgent для нашего конкретного варианта использования.

ea244cb30854f4cfad4bd6d7ce32c0dd

Если посмотреть на результат для нашего варианта использования, VisionAgent может идентифицировать все банки с газировкой, но считает одну из них дважды (вы можете заметить это на скриншоте?). Поскольку это неверное предсказание имеет самый низкий показатель достоверности, я обновлю порог достоверности до 0,5.

Кроме того, программа выводит порог уверенности вместе с количеством, что нам не нужно. Мы можем отредактировать код в VisionAgent, чтобы он соответствовал требованиям, или даже попросить VisionAgent удалить оценку уверенности. VisionAgent запоминает ваши обновления для будущих разговоров.

Подытожим эти шаги в следующем видео:

Проверка, итерация и развертывание

Как только наш исходный код будет готов, мы можем протестировать код с другими изображениями, чтобы проверить, работает ли код последовательно для нашего варианта использования. Мы можем загрузить изображения непосредственно в VisionAgent и протестировать код. Эти изображения будут сохранены для будущего использования.

Подытожим эти шаги в следующем видео:

Vision Agent также позволяет вам создать приложение Streamlit, чтобы поделиться своим прототипом с вашей командой для дальнейшей проверки.

Подытожим эти шаги в следующем видео:

После проверки кода на наличие банок с газировкой мы теперь предлагаем агенту ввести оставшуюся часть требования: «Кроме того, рассчитайте процент запасов, исходя из максимальной вместимости в 35 банок. Если запасы ниже 50%, программа должна вывести статус «Требуется пополнение». Если запасы выше 50%, она должна вывести статус «Исправно».

После того, как все требования выполнены, мы можем скопировать или загрузить этот совместно разработанный код с VisionAgent для вывода, вызвав функцию count_soda_cans в желаемой среде.

Команда VisionAgent также активно разрабатывает конечную точку веб-развертывания для упрощения процесса развертывания.

Подробнее о CountGD..

Наши внутренние тесты показали, что модель подсчета Multi-Modal Counting Model, на которой работает VisionAgent, CountGD¹, стабильно выдает результаты с погрешностью менее 5%. Такой уровень точности сохраняется даже в сложных сценариях, включающих более 100 объектов интереса на одном изображении.

CountGD также может работать с перекрывающимися объектами, которые часто встречаются в реальных сценариях использования. Однако, будучи независимым от цвета, CountGD сталкивается с ограничениями в распознавании цветов и демонстрирует пониженную точность в сценариях, включающих обнаружение нескольких классов. Чтобы смягчить ограничение по нескольким классам, функцию можно выполнить дважды или предварительно обработать изображение для разделения классов, что повышает точность.

Заключение

За считанные минуты мы быстро прошли через прототипирование, итерацию и развертывание кода для варианта использования подсчета объектов, который можно было легко сформулировать в тексте. Ранее создание подобного решения включало бы использование модели обнаружения объектов в сочетании с обширной постобработкой, требующей значительных усилий по маркировке, обучению и интеграции. В ситуациях, когда требуется более высокая точность, чем та, которую могут обеспечить текущие модели, мы можем использовать разработанный код для маркировки с нулевого выстрела в качестве основы для обучения более сложных моделей глубокого обучения.

С новыми выпусками Multi-Modal Models многие такие задачи Visual AI, которые ранее были громоздкими, теперь можно легко итерировать. В соответствии с нашей миссией по упрощению разработки компьютерного зрения, мы демократизируем передовые технологии Visual AI и Generative AI, упрощая разработку решений Visual AI. Получите ранний доступ к VisionAgent сегодня по адресу va.landing.ai/agent.

¹Ники Амини-Наиэни, Тенгда Хан и Эндрю Зиссерман. CountGD: Мультимодальный подсчет в открытом мире. В Advances in Neural Information Processing Systems, 2024.
Код для CountGD доступен здесь: https://github.com/niki-amini-naieni/CountGD/tree/main

Источник: landing.ai

❌ Нет тегов для этой статьи
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых