Image

Упрощение подсчета объектов с помощью VisionAgent

62279ae5d5e7851db00a0dc52211d6a2

Подсчет объектов с помощью визуального ИИ имеет широкий спектр применения в многочисленных областях. В розничной торговле автоматизированные системы аудита полок подсчитывают продукты для поддержания оптимального уровня запасов. В производстве подсчет компонентов на сборочных линиях обеспечивает контроль качества и выявляет аномалии производства. Медицинские исследователи используют подсчет клеток на микроскопических изображениях для диагностики заболеваний и разработки лекарств. В сфере безопасности подсчет людей в многолюдных помещениях помогает контролировать уровень заполняемости и обеспечивает соблюдение правил безопасности.

Традиционно подсчет объектов с помощью компьютерного зрения был сложным процессом, требующим значительных знаний. Разработчики обычно собирают и маркируют обширные наборы данных, выбирают и обучают модели машинного обучения (часто CNN) и реализуют логику постобработки. Этот подход включает предварительную обработку данных, проектирование архитектуры модели, проверку и кодирование развертывания. Многоэтапный рабочий процесс делает внедрение такого решения трудоемким и ресурсоемким для многих организаций.

VisionAgent, генеративный конструктор приложений Visual AI от LandingAI, делает такие задачи, как подсчет объектов для обычных объектов, довольно простыми, используя современные модели языка зрения (модели SOTA VLM) и объединяя их с агентской структурой для генерации пользовательского кода для вашего варианта использования. Этот инновационный подход запускает ваш проект за считанные минуты по сравнению с бенчмаркингом различных моделей для вашего варианта использования и инвестированием значительного времени и ресурсов в адаптацию новых моделей для вашей экосистемы.

Давайте рассмотрим практическое применение: управление запасами банок с газировкой. Представьте, что вам поручено создать систему для мониторинга запасов банок с газировкой на складе. Цель состоит в том, чтобы автоматизировать расчет процента запасов на основе максимальной вместимости в 35 банок и определить, необходимо ли пополнение запасов.

Быстрый VisionAgent с четкими требованиями к проекту

При подходе к этому варианту использования визуального ИИ крайне важно сформулировать четкие, подробные инструкции — так же, как вы бы это сделали для младшего инженера-программиста. Для нашей системы инвентаризации банок с газировкой мы хотим, чтобы модель ИИ идентифицировала и подсчитывала банки, вычисляла процент инвентаря на основе нашей полной емкости в 60 банок и предоставляла статус, указывающий, в порядке ли инвентарь или его необходимо пополнить.

Такой уровень специфичности помогает VisionAgent генерировать более точный и полезный код, гарантируя, что вывод будет точно соответствовать нашим потребностям.

e63d37b3b15b7b805101a2c989844ff2

Начнем с более простого, но точного примера создания прототипа с помощью VisionAgent для случая использования банки с газировкой:

«Напишите программу, которая подсчитывает банки с газировкой на изображении. Программа должна выводить количество, рисовать ограничивающие рамки вокруг каждой обнаруженной банки и отображать оценку достоверности для каждого прогноза. Используйте порог 0,2»

Подытожим эти шаги в следующем видео:

Прототип решения

После того, как мы запросили VisionAgent, он генерирует код, который соответствует нашему варианту использования. Этот сгенерированный код служит отправной точкой, которую мы можем запустить, оценить и итеративно улучшить. На этом этапе прототипирования мы можем экспериментировать с различными формулировками в нашем запросе, корректировать специфику наших инструкций или настраивать требования к выходным данным.

Цель состоит в том, чтобы быстро итерировать, пока VisionAgent не сгенерирует код, который точно обнаруживает и подсчитывает банки с газировкой, вычисляет уровни запасов и предоставляет нужный нам статус. Этот процесс прототипирования не только помогает нам усовершенствовать наше решение, но и позволяет нам понять возможности и ограничения VisionAgent для нашего конкретного варианта использования.

ea244cb30854f4cfad4bd6d7ce32c0dd

Если посмотреть на результат для нашего варианта использования, VisionAgent может идентифицировать все банки с газировкой, но считает одну из них дважды (вы можете заметить это на скриншоте?). Поскольку это неверное предсказание имеет самый низкий показатель достоверности, я обновлю порог достоверности до 0,5.

Кроме того, программа выводит порог уверенности вместе с количеством, что нам не нужно. Мы можем отредактировать код в VisionAgent, чтобы он соответствовал требованиям, или даже попросить VisionAgent удалить оценку уверенности. VisionAgent запоминает ваши обновления для будущих разговоров.

Подытожим эти шаги в следующем видео:

Проверка, итерация и развертывание

Как только наш исходный код будет готов, мы можем протестировать код с другими изображениями, чтобы проверить, работает ли код последовательно для нашего варианта использования. Мы можем загрузить изображения непосредственно в VisionAgent и протестировать код. Эти изображения будут сохранены для будущего использования.

Подытожим эти шаги в следующем видео:

Vision Agent также позволяет вам создать приложение Streamlit, чтобы поделиться своим прототипом с вашей командой для дальнейшей проверки.

Подытожим эти шаги в следующем видео:

После проверки кода на наличие банок с газировкой мы теперь предлагаем агенту ввести оставшуюся часть требования: «Кроме того, рассчитайте процент запасов, исходя из максимальной вместимости в 35 банок. Если запасы ниже 50%, программа должна вывести статус «Требуется пополнение». Если запасы выше 50%, она должна вывести статус «Исправно».

После того, как все требования выполнены, мы можем скопировать или загрузить этот совместно разработанный код с VisionAgent для вывода, вызвав функцию count_soda_cans в желаемой среде.

Команда VisionAgent также активно разрабатывает конечную точку веб-развертывания для упрощения процесса развертывания.

Подробнее о CountGD..

Наши внутренние тесты показали, что модель подсчета Multi-Modal Counting Model, на которой работает VisionAgent, CountGD¹, стабильно выдает результаты с погрешностью менее 5%. Такой уровень точности сохраняется даже в сложных сценариях, включающих более 100 объектов интереса на одном изображении.

CountGD также может работать с перекрывающимися объектами, которые часто встречаются в реальных сценариях использования. Однако, будучи независимым от цвета, CountGD сталкивается с ограничениями в распознавании цветов и демонстрирует пониженную точность в сценариях, включающих обнаружение нескольких классов. Чтобы смягчить ограничение по нескольким классам, функцию можно выполнить дважды или предварительно обработать изображение для разделения классов, что повышает точность.

Заключение

За считанные минуты мы быстро прошли через прототипирование, итерацию и развертывание кода для варианта использования подсчета объектов, который можно было легко сформулировать в тексте. Ранее создание подобного решения включало бы использование модели обнаружения объектов в сочетании с обширной постобработкой, требующей значительных усилий по маркировке, обучению и интеграции. В ситуациях, когда требуется более высокая точность, чем та, которую могут обеспечить текущие модели, мы можем использовать разработанный код для маркировки с нулевого выстрела в качестве основы для обучения более сложных моделей глубокого обучения.

С новыми выпусками Multi-Modal Models многие такие задачи Visual AI, которые ранее были громоздкими, теперь можно легко итерировать. В соответствии с нашей миссией по упрощению разработки компьютерного зрения, мы демократизируем передовые технологии Visual AI и Generative AI, упрощая разработку решений Visual AI. Получите ранний доступ к VisionAgent сегодня по адресу va.landing.ai/agent.

¹Ники Амини-Наиэни, Тенгда Хан и Эндрю Зиссерман. CountGD: Мультимодальный подсчет в открытом мире. В Advances in Neural Information Processing Systems, 2024.
Код для CountGD доступен здесь: https://github.com/niki-amini-naieni/CountGD/tree/main

Источник: landing.ai

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.
Какой язык выбрать программисту в 2026 году?
Vantage Markets представит торговые решения на Blockchain Forum 2026
Моделирование данных для инженеров-аналитиков: полное руководство
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах
Компания Tesla запускает свою службу роботакси в Далласе и Хьюстоне.
Ученые говорят: Клонировать
dummy-img
Как максимально эффективно использовать возможности коворкинга в Claude
Image Not Found
Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Апр 20, 2026
Vantage Markets представит торговые решения на Blockchain Forum 2026

Vantage Markets представит торговые решения на Blockchain Forum 2026

14–15 апреля 2026 года в Москве, в Крокус Экспо, пройдет Blockchain Forum 2026 — одно из ключевых событий региона для профессионалов в сфере криптовалют, трейдинга и блокчейн-технологий. По мере того как индустрия продолжает развиваться в направлении цифровых…

Апр 20, 2026
Моделирование данных для инженеров-аналитиков: полное руководство

Моделирование данных для инженеров-аналитиков: полное руководство

Лучшие модели данных затрудняют постановку неправильных вопросов и упрощают ответы на правильные. Делиться Ваша модель данных — это не технические характеристики. Это мышление с точки зрения бизнеса. Рассматривайте её как план всей вашей аналитической системы. Если план…

Апр 20, 2026
В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

В методе моделирования новых материалов обнаружилась «слепая зона»: Химия и науки о материалах

Графическое резюме исследования © Михаил Медведев / Институт органической химии имени Н.Д. Зелинского РАН. Исследователи показали, что широко используемые методы квантовой химии могут не различать некоторые варианты распределения электронов в молекулах, из-за чего допускают ошибки при моделировании…

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых