Извлечение документов DPT-2, точность 99.16%, DocVQA, текст под подписью.

Тест DocVQA: точность 99,16% при использовании метода извлечения документов Agentic.

0ecd15dabec193c7f620fc754d961693 f0948b9e75b97fc594eed9fc4689ecb5 0134ce3877d89160d0c88a992aef58e1 Анкит Кхаре, Шанкар Джагадисан, Поделиться:

Вкратце:

Мы провели валидацию на наборе данных DocVQA и получили 5286 правильных ответов из 5331 (99,16%) . Из этих 45 неправильных ответов только 18 являются истинными недостатками синтаксического анализа . DocVQA обычно используется для оценки моделей обработки изображений и языка, но мы являемся пионерами в использовании этого популярного набора данных для определения точности нашего API Agentic Document Extraction (ADE) Parse .

Главный вывод: LLM может ответить на 99,16% вопросов DocVQA, используя только разобранный ответ API от ADE , без доступа к изображению на этапе проверки качества . Наше новейшее предложение, ADE с моделью Document Pre-trained Transformer 2 (DPT-2) , проверяет изображение один раз для анализа и захватывает документ настолько полно, что этап проверки качества может пропускать пиксели и при этом почти всегда давать правильный результат.

Благодаря визуальной привязке (ограничивающие рамки и расположение элементов, указывающие на точный текст, таблицы, рисунки и даже отдельные ячейки таблиц на каждой странице), вы выполняете анализ один раз , а затем запускаете неограниченное количество запросов к структурированному выводу, обеспечивая отслеживаемость каждого ответа.

Мы публикуем примеры успешных случаев с использованием сложных документов , все 45 ошибок , а также предоставляем воспроизводимый код для обеспечения прозрачности. Контрольные показатели укрепляют уверенность; используйте их в сочетании с вашими данными, чтобы сделать ваш анализ максимально надежным . Мы настоятельно рекомендуем вам протестировать ADE на самых сложных документах в тестовой среде и сообщить нам, где мы можем вместе улучшить систему, чтобы полностью автоматизировать ваш конвейер обработки документов.

Посмотреть успехи и неудачи | Доступ к коду на GitHub

Реальная коммерческая ценность от точного анализа

Ещё раз хочу подчеркнуть ключевой момент: когда мы говорим, что достигли точности 99,16% на DocVQA, мы тестируем не модель обработки визуальной и языковой информации, а то, сохраняет ли наш обработанный результат достаточно информации, чтобы человек (или магистр права), который никогда не видел исходный документ, но видел его обработанное представление, всё ещё мог правильно ответить на вопросы.

Подумайте, что это может означать:

  • Анализ документа один раз
  • Сохраните структурированный вывод.
  • Ответьте на миллионы вопросов из вашей базы данных.
  • Сэкономьте деньги, не подвергая изображения повторной обработке.

Именно так масштабируются системы обработки документов. И это возможно только при исключительно высоком качестве парсинга. Помните, парсинг — это не просто ответы без изображений, это то, как вы управляете конвейерами обработки документов, обеспечивая контроль и доверие:

  • Стоимость и задержка

Вам потребуется всего один проход по неструктурированным изображениям/PDF-файлам. Все последующие операции будут выполняться со структурированными данными.

  • Происхождение и аудит

Каждое значение, которое вас интересует, ведет к соответствующему элементу, ячейке и странице.

  • Проверка человеком

Координаты ограничивающей рамки и оценки достоверности могут помочь вашим рецензентам быстро найти нужные места.

  • Поиск и аналитика

Визуально обоснованные текстовые индексы обеспечивают удобное индексирование для фильтров, трендов и бизнес-аналитики.

  • Гибкость схемы

Вы всегда можете добавлять или изменять поля в любое время, не трогая пиксели снова.

  • Конфиденциальность и управление.

Это позволяет вам редактировать временные интервалы, устанавливать правила хранения, делиться структурой и сохранять изображения в приватном режиме.

  • Улучшенная маршрутизация

Вы можете использовать разобранные сигналы, чтобы отправить 1–2% наиболее сложных задач визуальной модели или эксперту-оценщику.

  • Контроль качества и повторное использование

Структурированные данные упрощают отслеживание качества парсинга по разделам, таблицам или полям с течением времени и позволяют повторно использовать одни и те же данные для извлечения информации, контроля качества, поддержки или обеспечения соответствия требованиям.

  • РАГ и агенты

Наконец, как вы, возможно, уже догадались, RAG и Agents лучше работают с фрагментами данных, полученными с земли, чем с необработанными изображениями.

Классификация ошибок рассказывает реальную историю.

Из 45 ошибок только 18 являются подлинными ошибками синтаксического анализа. Остальные либо не относятся к типичным задачам парсера, либо являются ошибками, которые можно устранить путем последующей обработки подсказок для получения точного ответа.

Тип ошибки Считать % Что это значит
Неправильный синтаксический анализ 13 28,9% Ошибки распознавания текста/анализа (путаница символов, неправильное прочтение).
Некоторые изображения действительно сложны из-за частичного перекрытия и ужасного качества сканирования, но мы постоянно совершенствуемся и добиваемся лучших результатов даже в самых сложных случаях с каждым новым выпуском модели.
Пропуски экзаменов Prompt/LLM 18 40% Ошибки в рассуждениях или интерпретации.
Ваши последующие эвристические алгоритмы или тщательно разработанная система подсказок легко помогут избежать подобных ошибок.
Не фокусируется на ADE 9 20% Вопросы пространственной компоновки выходят за рамки основной задачи любого парсера.
Неверный анализ 5 11,1% Информация, не извлеченная в процессе синтаксического анализа.
В некоторых случаях парсер пропускает этап извлечения информации. Дьявол кроется в деталях, я рекомендую вам ознакомиться с этими примерами, чтобы понять, почему это происходит.
Проблемы с набором данных 18 Сомнительные исходные данные (исключены из подсчета и расчета точности).

Наш подход к VQA еще сложнее.

Быстро становится очевидным, что извлечение всей информации из документа, независимо от заданных вопросов, оказывается сложнее по сравнению со стандартным DocVQA:

Стандартные системы VQA :

  1. Возьмите (изображение + вопрос)
  2. Подача данных в модель визуально-языкового восприятия
  3. Получите ответ

Наш подход :

  1. Для получения результата выполните анализ документа; вы получите как представление в формате Markdown, так и в формате JSON.
  2. Ответьте на все вопросы в формате md/json без изображения.

Ответы на вопросы

Мы использовали ADE Playground для ответа на вопросы, возникающие на основе обработанных данных. Конвейер обработки данных в Playground никогда не видит исходные изображения, а только использует извлеченный Markdown-код. Для оценки мы выполнили точное совпадение строк (без учета регистра) в точном соответствии с официальной методикой оценки DocVQA.

Путь к 99,16%

Версия Метод Точность Вход
Исходный уровень Чат ADE Playground 95,36% Вывод Markdown из модели ADE DPT-2
Финал Чат ADE Playground + подсказки с инструкциями 99,16% Информация о графическом интерфейсе Markdown + визуальное заземление из модели DPT-2

Улучшение произошло благодаря:

  • Использование JSON-вывода вместо Markdown обусловлено тем, что наш JSON содержит встроенную пространственную информацию (визуальную привязку), а не просто извлеченный текст.
  • Оптимизированная структура подсказок для лучшей интерпретации вопросов и помощи приложению-платформе в понимании того, как использовать проанализированные данные для некоторых сложных документов в наборе данных DocVQA; примеры см. в разделе дополнительной литературы в конце или в галерее.

Примечание: вы можете воспроизвести результаты, выбрав LLM вместо функции чата на нашем игровом поле.

О DocVQA

DocVQA — это тест на проверку навыков понимания документов, основанный на реальных отсканированных документах из библиотеки отраслевых документов Калифорнийского университета в Сан-Франциско (UCSF). Созданный исследователями из Калифорнийского университета в Сан-Диего и Института искусственного интеллекта имени Аллена, он предназначен для проверки способностей к пониманию документов.

Набор данных для проверки : 5349 вопросов, представленных на 1286 изображениях документов.

Типы вопросов : извлечение фактов, пространственное мышление, понимание таблиц.

Оценка : Точное совпадение строки (без учета регистра)

Текущая таблица лидеров (тестовый набор данных, октябрь 2024 г.):

  • Qwen2-VL: 97,25% (с доступом к изображениям)
  • Исходный уровень у людей: ~96-98% (оценка)

Наш результат : 99,16% (на валидационном наборе данных с использованием модели DPT-2 от ADE)

Следующий шаг — публикация результатов на тестовом наборе данных в ближайшем будущем. Исходя из показателей валидации, а также схожего статистического распределения данных и сложности документов, мы ожидаем результатов, сопоставимых с передовыми.

Полная прозрачность: все недостатки доступны для ознакомления.

В сфере ИИ/машинного обучения общепризнано, что результаты тестов могут быть «подтасованы». Доверие не строится на сокрытии или обмане, поэтому мы стремимся к максимальной прозрачности, публикуя подтвержденные ошибки и код.

Мы включаем :

  • Интерактивная галерея со всеми 45 ошибками и 63 из 5331 правильных ответов.
  • Исходный код для воспроизведения всего
  • Подробный анализ каждого результата с изображениями, прогнозами, эталонными данными, идентификаторами вопросов и классифицированными недостатками представлен в интерактивной галерее.

Вы можете сами оценить, насколько эти ошибки важны для вашего конкретного случая.

Повторюсь, речь идёт о построении доверия. Мы хотим, чтобы вы увидели, на что способен современный анализ документов, на что он не способен и где ещё остаются проблемы.

Попробуйте сами!

Хотите узнать, как работает парсинг ADE на ваших документах?

Попробуйте Agentic Document Extraction (ADE) : va.landing.ai

Есть вопросы? Свяжитесь с нами.

Присоединяйтесь к нашему сообществу в Discord, чтобы получать мгновенную поддержку и общаться с другими энтузиастами Document AI.

Скачать пост в формате PDF

Содержание

Источник: landing.ai

✅ Найденные теги: DocVQA, документы, Извлечение, МЕТОД, новости, Тест, Точность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Цветные блоки и линии, символизирующие технологическую сеть или блокчейн.
ideipro logotyp
Текст "MIT 2025 in the Media" на фоне цифровой сетки и световых эффектов.
Диаграмма Венна: пересечение U-REGLE, M-REGLE и GWAS Catalog.
Новая открытая система «автоисследований» Андрея Карпати позволяет запускать сотни экспериментов с искусственным интеллектом за ночь, что имеет революционные последствия.
Новорожденный в инкубаторе с фототерапией под синим светом.
Паркетный зал с деловой встречей, люди сидят и слушают спикеров за столом.
Детский рисунок: робот и слова на английском с объектами, включая кролика и гитару.
Абстрактное изображение в розово-синих тонах, напоминающее фрактал или галактику.
Image Not Found
Цветные блоки и линии, символизирующие технологическую сеть или блокчейн.

Создание надежной инфраструктуры данных для успешной работы агентов искусственного интеллекта.

В сотрудничестве с SAP В гонке за внедрением и демонстрацией преимуществ ИИ предприятия как никогда быстро развертывают агентные системы ИИ в качестве помощников, ассистентов и автономных исполнителей задач. Согласно ежегодному отчету McKinsey об ИИ, к концу 2025…

Мар 14, 2026
ideipro logotyp

Увеличение длины последовательности — это ещё не всё: эффективная интеграция мультимодальных сигналов для прогнозирования экспрессии генов.

arXiv:2602.21550v2 Тип объявления: замена-кросс Аннотация: Прогнозирование экспрессии генов, то есть предсказание уровней экспрессии мРНК на основе последовательностей ДНК, представляет собой серьезную проблему. Предыдущие работы часто фокусировались на увеличении длины входной последовательности для определения дистальных энхансеров, которые могут…

Мар 14, 2026
Текст "MIT 2025 in the Media" на фоне цифровой сетки и световых эффектов.

MIT в СМИ: обзор 2025 года

Члены сообщества MIT привлекли внимание общественности ключевыми научными достижениями и своими усилиями по решению актуальных проблем. Изображение: Новости MIT «В MIT инновации варьируются от впечатляющих технологий до приземленного творчества», — отметили в Chronicle во время визита в…

Мар 14, 2026
Диаграмма Венна: пересечение U-REGLE, M-REGLE и GWAS Catalog.

Раскрытие ценных генетических данных с помощью мультимодального ИИ на основе M-REGLE

M-REGLE (Multimodal REpresentation learning for Genetic discovery on Low-dimensional Embeddings) — это метод искусственного интеллекта, который одновременно анализирует несколько потоков медицинских данных. Совместное обучение на основе различных типов данных создает более полные представления и значительно повышает вероятность…

Мар 14, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых