Извлечение документов DPT-2, точность 99.16%, DocVQA, текст под подписью.

Тест DocVQA: точность 99,16% при использовании метода извлечения документов Agentic.

0ecd15dabec193c7f620fc754d961693 f0948b9e75b97fc594eed9fc4689ecb5 0134ce3877d89160d0c88a992aef58e1 Анкит Кхаре, Шанкар Джагадисан, Поделиться:

Вкратце:

Мы провели валидацию на наборе данных DocVQA и получили 5286 правильных ответов из 5331 (99,16%) . Из этих 45 неправильных ответов только 18 являются истинными недостатками синтаксического анализа . DocVQA обычно используется для оценки моделей обработки изображений и языка, но мы являемся пионерами в использовании этого популярного набора данных для определения точности нашего API Agentic Document Extraction (ADE) Parse .

Главный вывод: LLM может ответить на 99,16% вопросов DocVQA, используя только разобранный ответ API от ADE , без доступа к изображению на этапе проверки качества . Наше новейшее предложение, ADE с моделью Document Pre-trained Transformer 2 (DPT-2) , проверяет изображение один раз для анализа и захватывает документ настолько полно, что этап проверки качества может пропускать пиксели и при этом почти всегда давать правильный результат.

Благодаря визуальной привязке (ограничивающие рамки и расположение элементов, указывающие на точный текст, таблицы, рисунки и даже отдельные ячейки таблиц на каждой странице), вы выполняете анализ один раз , а затем запускаете неограниченное количество запросов к структурированному выводу, обеспечивая отслеживаемость каждого ответа.

Мы публикуем примеры успешных случаев с использованием сложных документов , все 45 ошибок , а также предоставляем воспроизводимый код для обеспечения прозрачности. Контрольные показатели укрепляют уверенность; используйте их в сочетании с вашими данными, чтобы сделать ваш анализ максимально надежным . Мы настоятельно рекомендуем вам протестировать ADE на самых сложных документах в тестовой среде и сообщить нам, где мы можем вместе улучшить систему, чтобы полностью автоматизировать ваш конвейер обработки документов.

Посмотреть успехи и неудачи | Доступ к коду на GitHub

Реальная коммерческая ценность от точного анализа

Ещё раз хочу подчеркнуть ключевой момент: когда мы говорим, что достигли точности 99,16% на DocVQA, мы тестируем не модель обработки визуальной и языковой информации, а то, сохраняет ли наш обработанный результат достаточно информации, чтобы человек (или магистр права), который никогда не видел исходный документ, но видел его обработанное представление, всё ещё мог правильно ответить на вопросы.

Подумайте, что это может означать:

  • Анализ документа один раз
  • Сохраните структурированный вывод.
  • Ответьте на миллионы вопросов из вашей базы данных.
  • Сэкономьте деньги, не подвергая изображения повторной обработке.

Именно так масштабируются системы обработки документов. И это возможно только при исключительно высоком качестве парсинга. Помните, парсинг — это не просто ответы без изображений, это то, как вы управляете конвейерами обработки документов, обеспечивая контроль и доверие:

  • Стоимость и задержка

Вам потребуется всего один проход по неструктурированным изображениям/PDF-файлам. Все последующие операции будут выполняться со структурированными данными.

  • Происхождение и аудит

Каждое значение, которое вас интересует, ведет к соответствующему элементу, ячейке и странице.

  • Проверка человеком

Координаты ограничивающей рамки и оценки достоверности могут помочь вашим рецензентам быстро найти нужные места.

  • Поиск и аналитика

Визуально обоснованные текстовые индексы обеспечивают удобное индексирование для фильтров, трендов и бизнес-аналитики.

  • Гибкость схемы

Вы всегда можете добавлять или изменять поля в любое время, не трогая пиксели снова.

  • Конфиденциальность и управление.

Это позволяет вам редактировать временные интервалы, устанавливать правила хранения, делиться структурой и сохранять изображения в приватном режиме.

  • Улучшенная маршрутизация

Вы можете использовать разобранные сигналы, чтобы отправить 1–2% наиболее сложных задач визуальной модели или эксперту-оценщику.

  • Контроль качества и повторное использование

Структурированные данные упрощают отслеживание качества парсинга по разделам, таблицам или полям с течением времени и позволяют повторно использовать одни и те же данные для извлечения информации, контроля качества, поддержки или обеспечения соответствия требованиям.

  • РАГ и агенты

Наконец, как вы, возможно, уже догадались, RAG и Agents лучше работают с фрагментами данных, полученными с земли, чем с необработанными изображениями.

Классификация ошибок рассказывает реальную историю.

Из 45 ошибок только 18 являются подлинными ошибками синтаксического анализа. Остальные либо не относятся к типичным задачам парсера, либо являются ошибками, которые можно устранить путем последующей обработки подсказок для получения точного ответа.

Тип ошибки Считать % Что это значит
Неправильный синтаксический анализ 13 28,9% Ошибки распознавания текста/анализа (путаница символов, неправильное прочтение).
Некоторые изображения действительно сложны из-за частичного перекрытия и ужасного качества сканирования, но мы постоянно совершенствуемся и добиваемся лучших результатов даже в самых сложных случаях с каждым новым выпуском модели.
Пропуски экзаменов Prompt/LLM 18 40% Ошибки в рассуждениях или интерпретации.
Ваши последующие эвристические алгоритмы или тщательно разработанная система подсказок легко помогут избежать подобных ошибок.
Не фокусируется на ADE 9 20% Вопросы пространственной компоновки выходят за рамки основной задачи любого парсера.
Неверный анализ 5 11,1% Информация, не извлеченная в процессе синтаксического анализа.
В некоторых случаях парсер пропускает этап извлечения информации. Дьявол кроется в деталях, я рекомендую вам ознакомиться с этими примерами, чтобы понять, почему это происходит.
Проблемы с набором данных 18 Сомнительные исходные данные (исключены из подсчета и расчета точности).

Наш подход к VQA еще сложнее.

Быстро становится очевидным, что извлечение всей информации из документа, независимо от заданных вопросов, оказывается сложнее по сравнению со стандартным DocVQA:

Стандартные системы VQA :

  1. Возьмите (изображение + вопрос)
  2. Подача данных в модель визуально-языкового восприятия
  3. Получите ответ

Наш подход :

  1. Для получения результата выполните анализ документа; вы получите как представление в формате Markdown, так и в формате JSON.
  2. Ответьте на все вопросы в формате md/json без изображения.

Ответы на вопросы

Мы использовали ADE Playground для ответа на вопросы, возникающие на основе обработанных данных. Конвейер обработки данных в Playground никогда не видит исходные изображения, а только использует извлеченный Markdown-код. Для оценки мы выполнили точное совпадение строк (без учета регистра) в точном соответствии с официальной методикой оценки DocVQA.

Путь к 99,16%

Версия Метод Точность Вход
Исходный уровень Чат ADE Playground 95,36% Вывод Markdown из модели ADE DPT-2
Финал Чат ADE Playground + подсказки с инструкциями 99,16% Информация о графическом интерфейсе Markdown + визуальное заземление из модели DPT-2

Улучшение произошло благодаря:

  • Использование JSON-вывода вместо Markdown обусловлено тем, что наш JSON содержит встроенную пространственную информацию (визуальную привязку), а не просто извлеченный текст.
  • Оптимизированная структура подсказок для лучшей интерпретации вопросов и помощи приложению-платформе в понимании того, как использовать проанализированные данные для некоторых сложных документов в наборе данных DocVQA; примеры см. в разделе дополнительной литературы в конце или в галерее.

Примечание: вы можете воспроизвести результаты, выбрав LLM вместо функции чата на нашем игровом поле.

О DocVQA

DocVQA — это тест на проверку навыков понимания документов, основанный на реальных отсканированных документах из библиотеки отраслевых документов Калифорнийского университета в Сан-Франциско (UCSF). Созданный исследователями из Калифорнийского университета в Сан-Диего и Института искусственного интеллекта имени Аллена, он предназначен для проверки способностей к пониманию документов.

Набор данных для проверки : 5349 вопросов, представленных на 1286 изображениях документов.

Типы вопросов : извлечение фактов, пространственное мышление, понимание таблиц.

Оценка : Точное совпадение строки (без учета регистра)

Текущая таблица лидеров (тестовый набор данных, октябрь 2024 г.):

  • Qwen2-VL: 97,25% (с доступом к изображениям)
  • Исходный уровень у людей: ~96-98% (оценка)

Наш результат : 99,16% (на валидационном наборе данных с использованием модели DPT-2 от ADE)

Следующий шаг — публикация результатов на тестовом наборе данных в ближайшем будущем. Исходя из показателей валидации, а также схожего статистического распределения данных и сложности документов, мы ожидаем результатов, сопоставимых с передовыми.

Полная прозрачность: все недостатки доступны для ознакомления.

В сфере ИИ/машинного обучения общепризнано, что результаты тестов могут быть «подтасованы». Доверие не строится на сокрытии или обмане, поэтому мы стремимся к максимальной прозрачности, публикуя подтвержденные ошибки и код.

Мы включаем :

  • Интерактивная галерея со всеми 45 ошибками и 63 из 5331 правильных ответов.
  • Исходный код для воспроизведения всего
  • Подробный анализ каждого результата с изображениями, прогнозами, эталонными данными, идентификаторами вопросов и классифицированными недостатками представлен в интерактивной галерее.

Вы можете сами оценить, насколько эти ошибки важны для вашего конкретного случая.

Повторюсь, речь идёт о построении доверия. Мы хотим, чтобы вы увидели, на что способен современный анализ документов, на что он не способен и где ещё остаются проблемы.

Попробуйте сами!

Хотите узнать, как работает парсинг ADE на ваших документах?

Попробуйте Agentic Document Extraction (ADE) : va.landing.ai

Есть вопросы? Свяжитесь с нами.

Присоединяйтесь к нашему сообществу в Discord, чтобы получать мгновенную поддержку и общаться с другими энтузиастами Document AI.

Скачать пост в формате PDF

Содержание

Источник: landing.ai

✅ Найденные теги: DocVQA, документы, Извлечение, МЕТОД, новости, Тест, Точность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

dummy-img
Компания Vitestro привлекла 70 миллионов долларов для обеспечения глобальной коммерческой готовности своего робота для забора крови — Medical Device Network
ideipro logotyp
Рука из экрана указывает на медицинские иконки: сердце, таблетки, чат.
ideipro logotyp
Шкатулка с ручкой и символом черепа на столе.
Три смартфона с экранами приложения Digg на синем фоне.
ideipro logotyp
Цветные блоки и линии, символизирующие технологическую сеть или блокчейн.
Image Not Found
dummy-img

Результаты сканирования мозга показывают, как кетамин быстро снимает тяжелую депрессию.

Исследователи получили первые прямые изображения того, как кетамин изменяет ключевые рецепторы головного мозга у людей с резистентной к лечению депрессией. Изменения, специфичные для отдельных областей мозга, точно соответствовали улучшению симптомов, что дает новое понимание механизма действия этого…

Мар 14, 2026
Компания Vitestro привлекла 70 миллионов долларов для обеспечения глобальной коммерческой готовности своего робота для забора крови — Medical Device Network

Компания Vitestro привлекла 70 миллионов долларов для обеспечения глобальной коммерческой готовности своего робота для забора крови — Medical Device Network

Система ARPD от Vitestro позиционируется как средство повышения качества забора крови в клинических условиях. Фото: Studio Nut / Shutterstock.com Компания Vitestro привлекла 70 миллионов долларов для продвижения разработки и расширения коммерциализации своего автономного робота для забора крови.…

Мар 14, 2026
ideipro logotyp

Компания Vistagen увольняет 20% сотрудников, чтобы сосредоточиться на кандидатах, испытывающих проблемы с социальной тревожностью.

Компания Vistagen Therapeutics продолжает активно развивать свой ведущий препарат от социальной тревожности, несмотря на то, что в декабре прошлого года он провалил третью фазу клинических испытаний. Биотехнологическая компания из района залива Сан-Франциско увольняет около 20% своего персонала,…

Мар 14, 2026
Рука из экрана указывает на медицинские иконки: сердце, таблетки, чат.

STAT+: FDA присвоило статус «прорывного» чат-боту на основе генеративного искусственного интеллекта для пациентов, перенесших хирургические операции.

Если это решение будет одобрено, оно может дать представление о том, как агентство будет регулировать аналогичные клинические инструменты. Управление оповещениями для этой статьи Отправить эту статью по электронной почте Поделитесь этой статьей Adobe Управление по санитарному надзору…

Мар 14, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых