Image

Что такое агентное обнаружение объектов?

6c3b994ae902fcec190d66d4942e4f88

Обнаружение объектов (OD) — один из инструментов, доступных разработчикам в VisionAgent. Он обеспечивает высококомпетентное обнаружение объектов с нулевого уровня в сложных задачах, используя агентные рассуждения об изображениях. Применяя агентные шаблоны, такие как планирование, генерация кода и использование инструментов, Agentic OD может надёжно обнаруживать как обычные объекты (например, «человек», «мотоцикл»), так и более сложные объекты (например, «работник без шлема», «гнилой перец», «красные ботинки»). Во внутреннем тесте LandingAI Agentic OD достиг 79,7% F1, превзойдя большие мультимодальные модели (LMM), такие как Qwen2.5-VL-7B-Instruct и GPT-4o, а также модели OD с открытым набором, такие как Florence-2 и OWLv2.

Как использовать агентное обнаружение объектов

Agentic OD доступен в виде веб-приложения, позволяющего пользователям тестировать различные подсказки на образцах изображений, а также на изображениях, которые они загружают.

f0c8b27b56aea219ad78097a81fad2d6

Разработчики, желающие включить функциональность OD в свои приложения, могут использовать API Agentic OD:

  • Входные данные: краткая подсказка с описанием интересующих объектов.
  • Выходные данные: список полей в формате [Xmin, Ymin, Xmax, Ymax], соответствующих каждому обнаруженному экземпляру подсказки.

Варианты использования

В текущей версии Agentic OD отлично обнаруживает две основные категории объектов.

Первая категория, которую мы называем «Обыденные объекты» , состоит из распространённых объектов, подобных тем, что встречаются в ImageNet и COCO. Это существительные без дополнительных определителей, например, «пепперони», «деталь пазла» и «число». Ниже приведены несколько примеров работы Agentic OD с объектами «Обыденные объекты»:

Быстрый пепперони часть пазла число
Изображение413276012a13d6b6dd080217bcb72fc975ee8f98dee442a0beb8012933704d541f3a5b59ab003c8587540bf47b0534ce

Вторая категория, которую мы называем повседневными предметами с атрибутами , расширяет предыдущую категорию, допуская дополнительные квалификаторы, такие как «желтый автомобиль» (цвет), «мобильный телефон с антенной» (владение), «горизонтальная ручка» (ориентация) и т. д. Ниже приведены некоторые примеры Agentic OD, работающего на повседневных предметах с атрибутами:

Быстрый желтый автомобиль сотовый телефон с антенной горизонтальная ручка
Изображение1ba4f3c5c62188e0d67070c18c6a9d87ead107b9945a7c2407f5255ed1dd1e8ee68b338c736aaae083ca7792a2383297

Сравнительная оценка

Чтобы гарантировать соответствие всех контрольных показателей нашим целевым сценариям использования, мы создали внутренний контрольный тест, используя подмножество из 100 изображений из набора данных PixMo-Points. Мы обозначили эти изображения рамками, соответствующими нескольким подсказкам. Распределение по различным атрибутам показано ниже:

Тип атрибута Считать Пример
Только базовый объект
(Найти X)
61 клубника
Часть целого
(X находится внутри Y – найти X)
5 пустое место в картонной коробке для яиц
Сдерживание
(X содержит Y – найти X)
34 сотовый телефон с антенной
Состояние
(X в данный момент равен Y – найти X)
16 открытая ладонь
Цвет
(Найти <цвет> X)
37 красный шлем
Направление
(<направление> X)
4 горизонтальная ручка
Имя собственное
(Найдите «Микки Маус»)
4 Микки Маус
Подсчет
(N из X – найти X)
6 стопка из двух карт
ОРС
(X содержит <текст> – найти X)
9 книга Дэвида Мамета

На основе этого набора данных мы оценили агентный OD и вычислили оценку F1. Для сравнения мы также оценили Florence-2 и OWLv2 (модели открытого множества OD), а также модели Qwen2.5-VL-7B-Instruct и GPT-4o (неагентный поток LMM).

Подход Категория Отзывать Точность F1-оценка
Агент OD (LandingAI) Агентик 77,0% 82,6% 79,7%
Флоренция-2 (Microsoft) Открытый набор OD 43,4% 36,6% 39,7%
OWLv2 (Google) Открытый набор OD 81,0% 29,5% 43,2%
Qwen2.5-VL-7B-Инструкция (Алибаба) ЛММ 26,0% 54,0% 35,1%
GPT-4o (OpenAI) ЛММ 0% 0% 0%

В целом, Agentic OD имеет наивысший показатель F1 — 79,7%. Хотя OWLv2 обладает более высокой полнотой, он значительно уступает в точности. Qwen2.5, несмотря на значительное улучшение производительности OD для LMM, всё ещё значительно уступает Agentic OD: хотя количество ящиков, как правило, верно, их местоположение полностью неверно.

Для наглядности мы также представляем прогнозы по отдельным образцам из нашего эталонного набора данных:

Быстрый Исходное изображение Агент OD Флоренция-2
бегун
с зеленым
обувь
bc201f11b65b3e5fd12c15e6bc9f4276530391811a39a8cc16bcc56bac3942e2ae14915b6d00f5762c1622e29bd6d00a
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3bda0289af87245cc62d38f61f0adbdc148aea0c1a43b68224708270847e04d7f4e960c93581c98a77e33e0fc29013d7
Быстрый Исходное изображение Агент OD Флоренция-2
пустой
пространство в
картонная коробка для яиц
b726c5a930f6fba9387935cbf98bbb87ba9fb6cf424b5f1230d150ccbdd8d6b999dddca4c3f65358202564fe28d31c33
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
fd977c60fe0d074d251c0436dbab2bfbe5edb13e85b42984cceae2f7d97b051fdb5c0ece7b00dbc6f8f91c690d3f905c
Быстрый Исходное изображение Агент OD Флоренция-2
горизонтальный
карандаш

(обратите внимание, это
отрицательная подсказка,
так как там
только
ручки и
карандашей нет.
Правильный
отвечать
это вернуться
ничего)
10d42676a9bf4957a53db85b27c42f2050512dbe098970dfd5c99c105136f824ac3bfa1cd8aee35ea484a3e7494bb7c2
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3e061f5ab1b458535f15a3622b390600d0b439f192e59cd3e2ce4678032d9069fac4300c33eebc5814a7aad90583a91c

Будущая работа

Дальнейшая работа будет направлена на повышение точности и уменьшение задержки Agentic OD. Кроме того, мы проведём более детальное исследование производительности Agentic OD при отрицательных подсказках — в случаях, когда подсказываемое изображение отсутствует на изображении (например, подсказка «клубника» на изображении черники). Такие модели, как Florence-2 и OWLv2, крайне смещены в сторону вывода чего-либо (даже если это отдаленно похоже на подсказку), и LMM также в некоторой степени страдают от этого. При повседневном тестировании Agentic OD, похоже, не сталкивается с подобной проблемой и адекватно реагирует на отрицательные подсказки.

Источник: landing.ai

✅ Найденные теги: новости, Что
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых