Архив рубрики ~Лента новостей~

Представляем VisionAgent: вашего визуального пилота ИИ

4cc70b791e1b667878ed4f07ffd86ddd

Команда LandingAI разработала VisionAgent — генеративный конструктор приложений на основе визуального ИИ, который ускоряет разработку и развертывание приложений с поддержкой машинного зрения.

VisionAgent выступает в качестве пилота визуального ИИ, когда дело доходит до создания приложений с поддержкой зрения. Выходя за рамки просто помощи в написании кода, VisionAgent создает несколько планов при запросе задачи зрения, выбирает наиболее эффективный и предоставляет весь необходимый код, инструменты и модели для готового к развертыванию решения. Разработчики могут выполнять итерации задач зрения за считанные минуты, а не за недели, быстрее переходя к производству.

Экосистема VisionAgent

Экосистема VisionAgent состоит из трех отдельных компонентов:

  • Веб-приложение VisionAgent
  • Библиотека VisionAgent
  • Библиотека инструментов VisionAgent

Понимание того, что делают компоненты и как они взаимодействуют, может иметь решающее значение. В этом блоге описывается каждый компонент экосистемы VisionAgent.

Веб-приложение VisionAgent

Для тех, кто ищет быстрый и простой способ начать работу с VisionAgent, размещенное веб-приложение VisionAgent является идеальным решением. Это веб-приложение позволяет вам создавать прототипы, итерации и развертывать код компьютерного зрения без необходимости в обширной настройке или конфигурации.

Веб-приложение предоставляет интуитивно понятный интерфейс, который проведет вас через процесс загрузки данных, генерации кода, тестирования кода и визуализации результатов. Вы можете редактировать сгенерированный код, если вам нужен более тонкий контроль. Вы можете развернуть код как облачную конечную точку или попросить агента сгенерировать и развернуть приложение Streamlit (размещенное в нашем облаке) для тестирования или предоставления другим.

Веб-приложение — отличный вариант для пользователей, которые хотят быстро тестировать идеи и видеть результаты, не углубляясь в сложности локальных сред разработки. Оно служит пользовательским интерфейсом вокруг библиотеки VisionAgent, которую мы подробно рассмотрим в следующем разделе.

1808d8fe88c1020ff330ff6394e8999e

Библиотека VisionAgent

Библиотека VisionAgent разработана, чтобы помочь вам использовать фреймворки агентов для создания кодового решения для ваших задач компьютерного зрения. Фреймворк может использовать набор инструментов для решения задачи зрения. Эти инструменты могут варьироваться от простой математической функции Python до сложной модели компьютерного зрения. Фреймворк поставляется с набором встроенных инструментов для общих задач компьютерного зрения, а также поддерживает создание пользовательских инструментов.

Библиотека VisionAgent содержит основные функции фреймворка VisionAgent, включая планирование агента, выбор инструмента, выполнение плана, генерацию кода, оценку и т. д. Она предоставляет интерфейсы программирования Python для настройки, запуска и взаимодействия с агентом локально. Кроме того, доступно приложение Streamlit для тех, кому нужен просто простой интерфейс чата. Эта библиотека также предоставляет набор встроенных инструментов для использования VisionAgent, которые также можно использовать независимо с Python.

Многие встроенные инструменты поддерживаются моделью компьютерного зрения и, таким образом, требуют GPU для вывода. Чтобы упростить локальный запуск VisionAgent, мы размещаем все необходимые модели в облаке LandingAI и предоставляем конечную точку HTTP для каждого инструмента, т. е. сервисы инструментов. Эти сервисы инструментов VisionAgent не имеют состояния и доступны всем пользователям VisionAgent, и они настроены с возможностями автоматического масштабирования для обслуживания многих пользователей одновременно.

Таким образом, вы заметите, что многие реализации инструментов представляют собой просто HTTP-клиенты, которые отправляют запросы в службу инструментов, которая фактически выполняет вывод на GPU.

52ac28f6cc413b15fc206cfe42728cb9

Библиотека инструментов VisionAgent

Библиотека VisionAgent Tools дополняет репозиторий VisionAgent, предлагая набор реализаций инструментов, разработанных для работы с фреймворком VisionAgent. Большинство этих инструментов используются фреймворком VisionAgent по умолчанию, т. е. встроенными инструментами.

В контексте этой библиотеки инструмент — это абстракция Python, которая оборачивает одну или несколько моделей для выполнения определенных задач. Задачей может быть обнаружение объектов, классификация изображений, чтение QR-кодов, подсчет предметов и т. д. Каждый инструмент принимает в качестве входных данных изображение или видео и предназначен для работы с различными моделями через динамический реестр моделей, позволяя пользователям переключаться между моделями. Репозиторий VisionAgent Tools не включает в себя какой-либо код веб-службы или код развертывания.

Если вы хотите использовать инструмент, которого в настоящее время нет в репозитории, вы можете зарегистрировать его как пользовательский инструмент в репозитории VisionAgent и использовать его локально. Смотрите пример здесь .

Если вы считаете, что ни один из существующих инструментов или моделей не может решить вашу проблему, мы рекомендуем вам создать вопрос в репозитории VisionAgent Tools, предложить свое решение или связаться с нами в Discord .

В области ИИ стремительно развивается множество инноваций. Мы регулярно оцениваем и добавляем в репозиторий новые и лучшие модели. На следующем снимке экрана показан список поддерживаемых нами моделей по состоянию на 10 октября 2024 г.

5bfc7030e180f6d05bc9fdf7bad8e623

Следующие шаги

Попробуйте веб-приложение VisionAgent, если вы хотите:

  • понять возможности VisionAgent
  • протестируйте новую идею для создания прототипа с помощью VisionAgent
  • модернизируйте свое существующее решение для визуализации с помощью VisionAgent
  • разверните веб-конечную точку или приложение Streamlit для вашего кода, сгенерированного VisionAgent

Перейдите в репозиторий VisionAgent , если вы хотите:

  • см. больше примеров или руководств
  • запустить или настроить VisionAgent локально
  • узнайте, как работает внутренняя структура VisionAgent
  • внести вклад в репо

Перейдите в репозиторий VisionAgent Tools, если вы хотите:

  • изучить существующие инструменты и модели компьютерного зрения, используемые VisionAgent
  • запустить и протестировать отдельный инструмент или модель локально
  • внести вклад в репо

Источник: landing.ai

❌ Нет тегов для этой статьи
Читайте также
Архив рубрики ~Обо всем~ 7+ настроек конфиденциальности телефона, которые следует проверить и отключить как можно скорее, чтобы избежать раскрытия ваших личных данных. Архив рубрики ~Обо всем~ Привет, Siri! Теперь ты — основа для умных очков Apple. Архив рубрики ~Обо всем~ Помимо функции extract_text: два слоя PDF-файла, определяющие качество RAG. Архив рубрики ~Обо всем~ AT&T теперь предлагает дневные абонементы за 3 доллара на «безлимитный» мобильный интернет для iPad. Архив рубрики ~Обо всем~ Как смотреть Чемпионат мира по футболу FIFA 2026: 10 способов трансляции (включая бесплатные варианты) Архив рубрики ~Обо всем~ Байесовские сети и сети Маркова: интуитивно понятное руководство по структурированной неопределенности Архив рубрики ~Обо всем~ Премия EPICS от IEEE присуждается выдающимся студентам и преподавателям. Архив рубрики ~Обо всем~ Компания Waymo создала виртуального водителя-человека для улучшения своих роботакси. Архив рубрики ~Обо всем~ Мы создаём паноптикум с помощью краудсорсинга. Архив рубрики ~Обо всем~ Электромобили GM вскоре будут поддерживать больше типов общественных зарядных станций. Архив рубрики ~Обо всем~ Удаленная работа ухудшила психическое здоровье. Причиной стало увеличение времени в одиночестве Архив рубрики ~Обо всем~ Первый тест-драйв: Rivian R2 2027 года полностью меняет правила игры в мире электромобилей. Архив рубрики ~Обо всем~ Загадочный случай исчезновения носимого устройства Архив рубрики ~Обо всем~ Что произойдет, если Apple и Google объединятся для создания ИИ? 5 новых моделей. Архив рубрики ~Обо всем~ 7+ настроек конфиденциальности телефона, которые следует проверить и отключить как можно скорее, чтобы избежать раскрытия ваших личных данных. Архив рубрики ~Обо всем~ Привет, Siri! Теперь ты — основа для умных очков Apple. Архив рубрики ~Обо всем~ Помимо функции extract_text: два слоя PDF-файла, определяющие качество RAG. Архив рубрики ~Обо всем~ AT&T теперь предлагает дневные абонементы за 3 доллара на «безлимитный» мобильный интернет для iPad. Архив рубрики ~Обо всем~ Как смотреть Чемпионат мира по футболу FIFA 2026: 10 способов трансляции (включая бесплатные варианты) Архив рубрики ~Обо всем~ Байесовские сети и сети Маркова: интуитивно понятное руководство по структурированной неопределенности Архив рубрики ~Обо всем~ Премия EPICS от IEEE присуждается выдающимся студентам и преподавателям. Архив рубрики ~Обо всем~ Компания Waymo создала виртуального водителя-человека для улучшения своих роботакси. Архив рубрики ~Обо всем~ Мы создаём паноптикум с помощью краудсорсинга. Архив рубрики ~Обо всем~ Электромобили GM вскоре будут поддерживать больше типов общественных зарядных станций. Архив рубрики ~Обо всем~ Удаленная работа ухудшила психическое здоровье. Причиной стало увеличение времени в одиночестве Архив рубрики ~Обо всем~ Первый тест-драйв: Rivian R2 2027 года полностью меняет правила игры в мире электромобилей. Архив рубрики ~Обо всем~ Загадочный случай исчезновения носимого устройства Архив рубрики ~Обо всем~ Что произойдет, если Apple и Google объединятся для создания ИИ? 5 новых моделей.

Подписка на рассылку

Получайте свежие новости и идеи на почту. Без спама — только самое интересное.

Нажимая «Подписаться», вы соглашаетесь с политикой конфиденциальности.