
Команда LandingAI разработала VisionAgent — генеративный конструктор приложений на основе визуального ИИ, который ускоряет разработку и развертывание приложений с поддержкой машинного зрения.
VisionAgent выступает в качестве пилота визуального ИИ, когда дело доходит до создания приложений с поддержкой зрения. Выходя за рамки просто помощи в написании кода, VisionAgent создает несколько планов при запросе задачи зрения, выбирает наиболее эффективный и предоставляет весь необходимый код, инструменты и модели для готового к развертыванию решения. Разработчики могут выполнять итерации задач зрения за считанные минуты, а не за недели, быстрее переходя к производству.
Экосистема VisionAgent
Экосистема VisionAgent состоит из трех отдельных компонентов:
- Веб-приложение VisionAgent
- Библиотека VisionAgent
- Библиотека инструментов VisionAgent
Понимание того, что делают компоненты и как они взаимодействуют, может иметь решающее значение. В этом блоге описывается каждый компонент экосистемы VisionAgent.
Веб-приложение VisionAgent
Для тех, кто ищет быстрый и простой способ начать работу с VisionAgent, размещенное веб-приложение VisionAgent является идеальным решением. Это веб-приложение позволяет вам создавать прототипы, итерации и развертывать код компьютерного зрения без необходимости в обширной настройке или конфигурации.
Веб-приложение предоставляет интуитивно понятный интерфейс, который проведет вас через процесс загрузки данных, генерации кода, тестирования кода и визуализации результатов. Вы можете редактировать сгенерированный код, если вам нужен более тонкий контроль. Вы можете развернуть код как облачную конечную точку или попросить агента сгенерировать и развернуть приложение Streamlit (размещенное в нашем облаке) для тестирования или предоставления другим.
Веб-приложение — отличный вариант для пользователей, которые хотят быстро тестировать идеи и видеть результаты, не углубляясь в сложности локальных сред разработки. Оно служит пользовательским интерфейсом вокруг библиотеки VisionAgent, которую мы подробно рассмотрим в следующем разделе.

Библиотека VisionAgent
Библиотека VisionAgent разработана, чтобы помочь вам использовать фреймворки агентов для создания кодового решения для ваших задач компьютерного зрения. Фреймворк может использовать набор инструментов для решения задачи зрения. Эти инструменты могут варьироваться от простой математической функции Python до сложной модели компьютерного зрения. Фреймворк поставляется с набором встроенных инструментов для общих задач компьютерного зрения, а также поддерживает создание пользовательских инструментов.
Библиотека VisionAgent содержит основные функции фреймворка VisionAgent, включая планирование агента, выбор инструмента, выполнение плана, генерацию кода, оценку и т. д. Она предоставляет интерфейсы программирования Python для настройки, запуска и взаимодействия с агентом локально. Кроме того, доступно приложение Streamlit для тех, кому нужен просто простой интерфейс чата. Эта библиотека также предоставляет набор встроенных инструментов для использования VisionAgent, которые также можно использовать независимо с Python.
Многие встроенные инструменты поддерживаются моделью компьютерного зрения и, таким образом, требуют GPU для вывода. Чтобы упростить локальный запуск VisionAgent, мы размещаем все необходимые модели в облаке LandingAI и предоставляем конечную точку HTTP для каждого инструмента, т. е. сервисы инструментов. Эти сервисы инструментов VisionAgent не имеют состояния и доступны всем пользователям VisionAgent, и они настроены с возможностями автоматического масштабирования для обслуживания многих пользователей одновременно.
Таким образом, вы заметите, что многие реализации инструментов представляют собой просто HTTP-клиенты, которые отправляют запросы в службу инструментов, которая фактически выполняет вывод на GPU.

Библиотека инструментов VisionAgent
Библиотека VisionAgent Tools дополняет репозиторий VisionAgent, предлагая набор реализаций инструментов, разработанных для работы с фреймворком VisionAgent. Большинство этих инструментов используются фреймворком VisionAgent по умолчанию, т. е. встроенными инструментами.
В контексте этой библиотеки инструмент — это абстракция Python, которая оборачивает одну или несколько моделей для выполнения определенных задач. Задачей может быть обнаружение объектов, классификация изображений, чтение QR-кодов, подсчет предметов и т. д. Каждый инструмент принимает в качестве входных данных изображение или видео и предназначен для работы с различными моделями через динамический реестр моделей, позволяя пользователям переключаться между моделями. Репозиторий VisionAgent Tools не включает в себя какой-либо код веб-службы или код развертывания.
Если вы хотите использовать инструмент, которого в настоящее время нет в репозитории, вы можете зарегистрировать его как пользовательский инструмент в репозитории VisionAgent и использовать его локально. Смотрите пример здесь .
Если вы считаете, что ни один из существующих инструментов или моделей не может решить вашу проблему, мы рекомендуем вам создать вопрос в репозитории VisionAgent Tools, предложить свое решение или связаться с нами в Discord .
В области ИИ стремительно развивается множество инноваций. Мы регулярно оцениваем и добавляем в репозиторий новые и лучшие модели. На следующем снимке экрана показан список поддерживаемых нами моделей по состоянию на 10 октября 2024 г.

Следующие шаги
Попробуйте веб-приложение VisionAgent, если вы хотите:
- понять возможности VisionAgent
- протестируйте новую идею для создания прототипа с помощью VisionAgent
- модернизируйте свое существующее решение для визуализации с помощью VisionAgent
- разверните веб-конечную точку или приложение Streamlit для вашего кода, сгенерированного VisionAgent
Перейдите в репозиторий VisionAgent , если вы хотите:
- см. больше примеров или руководств
- запустить или настроить VisionAgent локально
- узнайте, как работает внутренняя структура VisionAgent
- внести вклад в репо
Перейдите в репозиторий VisionAgent Tools, если вы хотите:
- изучить существующие инструменты и модели компьютерного зрения, используемые VisionAgent
- запустить и протестировать отдельный инструмент или модель локально
- внести вклад в репо
Источник: landing.ai



























