Image

Что такое агентное обнаружение объектов?

6c3b994ae902fcec190d66d4942e4f88

Обнаружение объектов (OD) — один из инструментов, доступных разработчикам в VisionAgent. Он обеспечивает высококомпетентное обнаружение объектов с нулевого уровня в сложных задачах, используя агентные рассуждения об изображениях. Применяя агентные шаблоны, такие как планирование, генерация кода и использование инструментов, Agentic OD может надёжно обнаруживать как обычные объекты (например, «человек», «мотоцикл»), так и более сложные объекты (например, «работник без шлема», «гнилой перец», «красные ботинки»). Во внутреннем тесте LandingAI Agentic OD достиг 79,7% F1, превзойдя большие мультимодальные модели (LMM), такие как Qwen2.5-VL-7B-Instruct и GPT-4o, а также модели OD с открытым набором, такие как Florence-2 и OWLv2.

Как использовать агентное обнаружение объектов

Agentic OD доступен в виде веб-приложения, позволяющего пользователям тестировать различные подсказки на образцах изображений, а также на изображениях, которые они загружают.

f0c8b27b56aea219ad78097a81fad2d6

Разработчики, желающие включить функциональность OD в свои приложения, могут использовать API Agentic OD:

  • Входные данные: краткая подсказка с описанием интересующих объектов.
  • Выходные данные: список полей в формате [Xmin, Ymin, Xmax, Ymax], соответствующих каждому обнаруженному экземпляру подсказки.

Варианты использования

В текущей версии Agentic OD отлично обнаруживает две основные категории объектов.

Первая категория, которую мы называем «Обыденные объекты» , состоит из распространённых объектов, подобных тем, что встречаются в ImageNet и COCO. Это существительные без дополнительных определителей, например, «пепперони», «деталь пазла» и «число». Ниже приведены несколько примеров работы Agentic OD с объектами «Обыденные объекты»:

Быстрый пепперони часть пазла число
Изображение413276012a13d6b6dd080217bcb72fc975ee8f98dee442a0beb8012933704d541f3a5b59ab003c8587540bf47b0534ce

Вторая категория, которую мы называем повседневными предметами с атрибутами , расширяет предыдущую категорию, допуская дополнительные квалификаторы, такие как «желтый автомобиль» (цвет), «мобильный телефон с антенной» (владение), «горизонтальная ручка» (ориентация) и т. д. Ниже приведены некоторые примеры Agentic OD, работающего на повседневных предметах с атрибутами:

Быстрый желтый автомобиль сотовый телефон с антенной горизонтальная ручка
Изображение1ba4f3c5c62188e0d67070c18c6a9d87ead107b9945a7c2407f5255ed1dd1e8ee68b338c736aaae083ca7792a2383297

Сравнительная оценка

Чтобы гарантировать соответствие всех контрольных показателей нашим целевым сценариям использования, мы создали внутренний контрольный тест, используя подмножество из 100 изображений из набора данных PixMo-Points. Мы обозначили эти изображения рамками, соответствующими нескольким подсказкам. Распределение по различным атрибутам показано ниже:

Тип атрибута Считать Пример
Только базовый объект
(Найти X)
61 клубника
Часть целого
(X находится внутри Y – найти X)
5 пустое место в картонной коробке для яиц
Сдерживание
(X содержит Y – найти X)
34 сотовый телефон с антенной
Состояние
(X в данный момент равен Y – найти X)
16 открытая ладонь
Цвет
(Найти <цвет> X)
37 красный шлем
Направление
(<направление> X)
4 горизонтальная ручка
Имя собственное
(Найдите «Микки Маус»)
4 Микки Маус
Подсчет
(N из X – найти X)
6 стопка из двух карт
ОРС
(X содержит <текст> – найти X)
9 книга Дэвида Мамета

На основе этого набора данных мы оценили агентный OD и вычислили оценку F1. Для сравнения мы также оценили Florence-2 и OWLv2 (модели открытого множества OD), а также модели Qwen2.5-VL-7B-Instruct и GPT-4o (неагентный поток LMM).

Подход Категория Отзывать Точность F1-оценка
Агент OD (LandingAI) Агентик 77,0% 82,6% 79,7%
Флоренция-2 (Microsoft) Открытый набор OD 43,4% 36,6% 39,7%
OWLv2 (Google) Открытый набор OD 81,0% 29,5% 43,2%
Qwen2.5-VL-7B-Инструкция (Алибаба) ЛММ 26,0% 54,0% 35,1%
GPT-4o (OpenAI) ЛММ 0% 0% 0%

В целом, Agentic OD имеет наивысший показатель F1 — 79,7%. Хотя OWLv2 обладает более высокой полнотой, он значительно уступает в точности. Qwen2.5, несмотря на значительное улучшение производительности OD для LMM, всё ещё значительно уступает Agentic OD: хотя количество ящиков, как правило, верно, их местоположение полностью неверно.

Для наглядности мы также представляем прогнозы по отдельным образцам из нашего эталонного набора данных:

Быстрый Исходное изображение Агент OD Флоренция-2
бегун
с зеленым
обувь
bc201f11b65b3e5fd12c15e6bc9f4276530391811a39a8cc16bcc56bac3942e2ae14915b6d00f5762c1622e29bd6d00a
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3bda0289af87245cc62d38f61f0adbdc148aea0c1a43b68224708270847e04d7f4e960c93581c98a77e33e0fc29013d7
Быстрый Исходное изображение Агент OD Флоренция-2
пустой
пространство в
картонная коробка для яиц
b726c5a930f6fba9387935cbf98bbb87ba9fb6cf424b5f1230d150ccbdd8d6b999dddca4c3f65358202564fe28d31c33
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
fd977c60fe0d074d251c0436dbab2bfbe5edb13e85b42984cceae2f7d97b051fdb5c0ece7b00dbc6f8f91c690d3f905c
Быстрый Исходное изображение Агент OD Флоренция-2
горизонтальный
карандаш

(обратите внимание, это
отрицательная подсказка,
так как там
только
ручки и
карандашей нет.
Правильный
отвечать
это вернуться
ничего)
10d42676a9bf4957a53db85b27c42f2050512dbe098970dfd5c99c105136f824ac3bfa1cd8aee35ea484a3e7494bb7c2
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3e061f5ab1b458535f15a3622b390600d0b439f192e59cd3e2ce4678032d9069fac4300c33eebc5814a7aad90583a91c

Будущая работа

Дальнейшая работа будет направлена на повышение точности и уменьшение задержки Agentic OD. Кроме того, мы проведём более детальное исследование производительности Agentic OD при отрицательных подсказках — в случаях, когда подсказываемое изображение отсутствует на изображении (например, подсказка «клубника» на изображении черники). Такие модели, как Florence-2 и OWLv2, крайне смещены в сторону вывода чего-либо (даже если это отдаленно похоже на подсказку), и LMM также в некоторой степени страдают от этого. При повседневном тестировании Agentic OD, похоже, не сталкивается с подобной проблемой и адекватно реагирует на отрицательные подсказки.

Источник: landing.ai

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых