Image

Что такое агентное обнаружение объектов?

6c3b994ae902fcec190d66d4942e4f88

Обнаружение объектов (OD) — один из инструментов, доступных разработчикам в VisionAgent. Он обеспечивает высококомпетентное обнаружение объектов с нулевого уровня в сложных задачах, используя агентные рассуждения об изображениях. Применяя агентные шаблоны, такие как планирование, генерация кода и использование инструментов, Agentic OD может надёжно обнаруживать как обычные объекты (например, «человек», «мотоцикл»), так и более сложные объекты (например, «работник без шлема», «гнилой перец», «красные ботинки»). Во внутреннем тесте LandingAI Agentic OD достиг 79,7% F1, превзойдя большие мультимодальные модели (LMM), такие как Qwen2.5-VL-7B-Instruct и GPT-4o, а также модели OD с открытым набором, такие как Florence-2 и OWLv2.

Как использовать агентное обнаружение объектов

Agentic OD доступен в виде веб-приложения, позволяющего пользователям тестировать различные подсказки на образцах изображений, а также на изображениях, которые они загружают.

f0c8b27b56aea219ad78097a81fad2d6

Разработчики, желающие включить функциональность OD в свои приложения, могут использовать API Agentic OD:

  • Входные данные: краткая подсказка с описанием интересующих объектов.
  • Выходные данные: список полей в формате [Xmin, Ymin, Xmax, Ymax], соответствующих каждому обнаруженному экземпляру подсказки.

Варианты использования

В текущей версии Agentic OD отлично обнаруживает две основные категории объектов.

Первая категория, которую мы называем «Обыденные объекты» , состоит из распространённых объектов, подобных тем, что встречаются в ImageNet и COCO. Это существительные без дополнительных определителей, например, «пепперони», «деталь пазла» и «число». Ниже приведены несколько примеров работы Agentic OD с объектами «Обыденные объекты»:

Быстрый пепперони часть пазла число
Изображение 413276012a13d6b6dd080217bcb72fc9 75ee8f98dee442a0beb8012933704d54 1f3a5b59ab003c8587540bf47b0534ce

Вторая категория, которую мы называем повседневными предметами с атрибутами , расширяет предыдущую категорию, допуская дополнительные квалификаторы, такие как «желтый автомобиль» (цвет), «мобильный телефон с антенной» (владение), «горизонтальная ручка» (ориентация) и т. д. Ниже приведены некоторые примеры Agentic OD, работающего на повседневных предметах с атрибутами:

Быстрый желтый автомобиль сотовый телефон с антенной горизонтальная ручка
Изображение 1ba4f3c5c62188e0d67070c18c6a9d87 ead107b9945a7c2407f5255ed1dd1e8e e68b338c736aaae083ca7792a2383297

Сравнительная оценка

Чтобы гарантировать соответствие всех контрольных показателей нашим целевым сценариям использования, мы создали внутренний контрольный тест, используя подмножество из 100 изображений из набора данных PixMo-Points. Мы обозначили эти изображения рамками, соответствующими нескольким подсказкам. Распределение по различным атрибутам показано ниже:

Тип атрибута Считать Пример
Только базовый объект
(Найти X)
61 клубника
Часть целого
(X находится внутри Y – найти X)
5 пустое место в картонной коробке для яиц
Сдерживание
(X содержит Y – найти X)
34 сотовый телефон с антенной
Состояние
(X в данный момент равен Y – найти X)
16 открытая ладонь
Цвет
(Найти <цвет> X)
37 красный шлем
Направление
(<направление> X)
4 горизонтальная ручка
Имя собственное
(Найдите «Микки Маус»)
4 Микки Маус
Подсчет
(N из X – найти X)
6 стопка из двух карт
ОРС
(X содержит <текст> – найти X)
9 книга Дэвида Мамета

На основе этого набора данных мы оценили агентный OD и вычислили оценку F1. Для сравнения мы также оценили Florence-2 и OWLv2 (модели открытого множества OD), а также модели Qwen2.5-VL-7B-Instruct и GPT-4o (неагентный поток LMM).

Подход Категория Отзывать Точность F1-оценка
Агент OD (LandingAI) Агентик 77,0% 82,6% 79,7%
Флоренция-2 (Microsoft) Открытый набор OD 43,4% 36,6% 39,7%
OWLv2 (Google) Открытый набор OD 81,0% 29,5% 43,2%
Qwen2.5-VL-7B-Инструкция (Алибаба) ЛММ 26,0% 54,0% 35,1%
GPT-4o (OpenAI) ЛММ 0% 0% 0%

В целом, Agentic OD имеет наивысший показатель F1 — 79,7%. Хотя OWLv2 обладает более высокой полнотой, он значительно уступает в точности. Qwen2.5, несмотря на значительное улучшение производительности OD для LMM, всё ещё значительно уступает Agentic OD: хотя количество ящиков, как правило, верно, их местоположение полностью неверно.

Для наглядности мы также представляем прогнозы по отдельным образцам из нашего эталонного набора данных:

Быстрый Исходное изображение Агент OD Флоренция-2
бегун
с зеленым
обувь
bc201f11b65b3e5fd12c15e6bc9f4276 530391811a39a8cc16bcc56bac3942e2 ae14915b6d00f5762c1622e29bd6d00a
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3bda0289af87245cc62d38f61f0adbdc 148aea0c1a43b68224708270847e04d7 f4e960c93581c98a77e33e0fc29013d7
Быстрый Исходное изображение Агент OD Флоренция-2
пустой
пространство в
картонная коробка для яиц
b726c5a930f6fba9387935cbf98bbb87 ba9fb6cf424b5f1230d150ccbdd8d6b9 99dddca4c3f65358202564fe28d31c33
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
fd977c60fe0d074d251c0436dbab2bfb e5edb13e85b42984cceae2f7d97b051f db5c0ece7b00dbc6f8f91c690d3f905c
Быстрый Исходное изображение Агент OD Флоренция-2
горизонтальный
карандаш

(обратите внимание, это
отрицательная подсказка,
так как там
только
ручки и
карандашей нет.
Правильный
отвечать
это вернуться
ничего)
10d42676a9bf4957a53db85b27c42f20 50512dbe098970dfd5c99c105136f824 ac3bfa1cd8aee35ea484a3e7494bb7c2
OWLv2 Qwen2.5-VL-7B-Instruct ГПТ-4о
3e061f5ab1b458535f15a3622b390600 d0b439f192e59cd3e2ce4678032d9069 fac4300c33eebc5814a7aad90583a91c

Будущая работа

Дальнейшая работа будет направлена на повышение точности и уменьшение задержки Agentic OD. Кроме того, мы проведём более детальное исследование производительности Agentic OD при отрицательных подсказках — в случаях, когда подсказываемое изображение отсутствует на изображении (например, подсказка «клубника» на изображении черники). Такие модели, как Florence-2 и OWLv2, крайне смещены в сторону вывода чего-либо (даже если это отдаленно похоже на подсказку), и LMM также в некоторой степени страдают от этого. При повседневном тестировании Agentic OD, похоже, не сталкивается с подобной проблемой и адекватно реагирует на отрицательные подсказки.

Источник: landing.ai

✅ Найденные теги: новости, Что
Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых