Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Что такое агентное обнаружение объектов?

6c3b994ae902fcec190d66d4942e4f88

Обнаружение объектов (OD) — один из инструментов, доступных разработчикам в VisionAgent. Он обеспечивает высококомпетентное обнаружение объектов с нулевого уровня в сложных задачах, используя агентные рассуждения об изображениях. Применяя агентные шаблоны, такие как планирование, генерация кода и использование инструментов, Agentic OD может надёжно обнаруживать как обычные объекты (например, «человек», «мотоцикл»), так и более сложные объекты (например, «работник без шлема», «гнилой перец», «красные ботинки»). Во внутреннем тесте LandingAI Agentic OD достиг 79,7% F1, превзойдя большие мультимодальные модели (LMM), такие как Qwen2.5-VL-7B-Instruct и GPT-4o, а также модели OD с открытым набором, такие как Florence-2 и OWLv2.

Как использовать агентное обнаружение объектов

Agentic OD доступен в виде веб-приложения, позволяющего пользователям тестировать различные подсказки на образцах изображений, а также на изображениях, которые они загружают.

f0c8b27b56aea219ad78097a81fad2d6

Разработчики, желающие включить функциональность OD в свои приложения, могут использовать API Agentic OD:

  • Входные данные: краткая подсказка с описанием интересующих объектов.
  • Выходные данные: список полей в формате [Xmin, Ymin, Xmax, Ymax], соответствующих каждому обнаруженному экземпляру подсказки.

Варианты использования

В текущей версии Agentic OD отлично обнаруживает две основные категории объектов.

Первая категория, которую мы называем «Обыденные объекты» , состоит из распространённых объектов, подобных тем, что встречаются в ImageNet и COCO. Это существительные без дополнительных определителей, например, «пепперони», «деталь пазла» и «число». Ниже приведены несколько примеров работы Agentic OD с объектами «Обыденные объекты»:

Быстрый пепперони часть пазла число
Изображение 413276012a13d6b6dd080217bcb72fc9 75ee8f98dee442a0beb8012933704d54 1f3a5b59ab003c8587540bf47b0534ce

Вторая категория, которую мы называем повседневными предметами с атрибутами , расширяет предыдущую категорию, допуская дополнительные квалификаторы, такие как «желтый автомобиль» (цвет), «мобильный телефон с антенной» (владение), «горизонтальная ручка» (ориентация) и т. д. Ниже приведены некоторые примеры Agentic OD, работающего на повседневных предметах с атрибутами:

Быстрый желтый автомобиль сотовый телефон с антенной горизонтальная ручка
Изображение 1ba4f3c5c62188e0d67070c18c6a9d87 ead107b9945a7c2407f5255ed1dd1e8e e68b338c736aaae083ca7792a2383297

Сравнительная оценка

Чтобы гарантировать соответствие всех контрольных показателей нашим целевым сценариям использования, мы создали внутренний контрольный тест, используя подмножество из 100 изображений из набора данных PixMo-Points. Мы обозначили эти изображения рамками, соответствующими нескольким подсказкам. Распределение по различным атрибутам показано ниже:

Тип атрибута Считать Пример
Только базовый объект
(Найти X)
61 клубника
Часть целого
(X находится внутри Y – найти X)
5 пустое место в картонной коробке для яиц
Сдерживание
(X содержит Y – найти X)
34 сотовый телефон с антенной
Состояние
(X в данный момент равен Y – найти X)
16 открытая ладонь
Цвет
(Найти <цвет> X)
37 красный шлем
Направление
(<направление> X)
4 горизонтальная ручка
Имя собственное
(Найдите «Микки Маус»)
4 Микки Маус
Подсчет
(N из X – найти X)
6 стопка из двух карт
ОРС
(X содержит <текст> – найти X)
9 книга Дэвида Мамета

На основе этого набора данных мы оценили агентный OD и вычислили оценку F1. Для сравнения мы также оценили Florence-2 и OWLv2 (модели открытого множества OD), а также модели Qwen2.5-VL-7B-Instruct и GPT-4o (неагентный поток LMM).

Подход Категория Отзывать Точность F1-оценка
Агент OD (LandingAI) Агентик 77,0% 82,6% 79,7%
Флоренция-2 (Microsoft) Открытый набор OD 43,4% 36,6% 39,7%
OWLv2 (Google) Открытый набор OD 81,0% 29,5% 43,2%
Qwen2.5-VL-7B-Инструкция (Алибаба) ЛММ 26,0% 54,0% 35,1%
GPT-4o (OpenAI) ЛММ 0% 0% 0%

В целом, Agentic OD имеет наивысший показатель F1 — 79,7%. Хотя OWLv2 обладает более высокой полнотой, он значительно уступает в точности. Qwen2.5, несмотря на значительное улучшение производительности OD для LMM, всё ещё значительно уступает Agentic OD: хотя количество ящиков, как правило, верно, их местоположение полностью неверно.

Для наглядности мы также представляем прогнозы по отдельным образцам из нашего эталонного набора данных:

Быстрый Исходное изображение Агент OD Флоренция-2
бегун
с зеленым
обувь
bc201f11b65b3e5fd12c15e6bc9f4276 530391811a39a8cc16bcc56bac3942e2 ae14915b6d00f5762c1622e29bd6d00a
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3bda0289af87245cc62d38f61f0adbdc 148aea0c1a43b68224708270847e04d7 f4e960c93581c98a77e33e0fc29013d7
Быстрый Исходное изображение Агент OD Флоренция-2
пустой
пространство в
картонная коробка для яиц
b726c5a930f6fba9387935cbf98bbb87 ba9fb6cf424b5f1230d150ccbdd8d6b9 99dddca4c3f65358202564fe28d31c33
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
fd977c60fe0d074d251c0436dbab2bfb e5edb13e85b42984cceae2f7d97b051f db5c0ece7b00dbc6f8f91c690d3f905c
Быстрый Исходное изображение Агент OD Флоренция-2
горизонтальный
карандаш

(обратите внимание, это
отрицательная подсказка,
так как там
только
ручки и
карандашей нет.
Правильный
отвечать
это вернуться
ничего)
10d42676a9bf4957a53db85b27c42f20 50512dbe098970dfd5c99c105136f824 ac3bfa1cd8aee35ea484a3e7494bb7c2
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3e061f5ab1b458535f15a3622b390600 d0b439f192e59cd3e2ce4678032d9069 fac4300c33eebc5814a7aad90583a91c

Будущая работа

Дальнейшая работа будет направлена на повышение точности и уменьшение задержки Agentic OD. Кроме того, мы проведём более детальное исследование производительности Agentic OD при отрицательных подсказках — в случаях, когда подсказываемое изображение отсутствует на изображении (например, подсказка «клубника» на изображении черники). Такие модели, как Florence-2 и OWLv2, крайне смещены в сторону вывода чего-либо (даже если это отдаленно похоже на подсказку), и LMM также в некоторой степени страдают от этого. При повседневном тестировании Agentic OD, похоже, не сталкивается с подобной проблемой и адекватно реагирует на отрицательные подсказки.

Источник: landing.ai

✅ Найденные теги: новости, Что

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Почему дипломированные юристы повреждают ваши документы при делегировании полномочий? Архив рубрики ~Лента новостей~: Apple вносит изменения в свой спорный дизайн Liquid Glass. Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле Архив рубрики ~Лента новостей~: Рассматриваем первую фотографию контактной площадки процессоров Intel Nova Lake