Анкит Кхаре, Шанкар Джагадисан, 12 ноября 2025 г. Поделиться:
Вкратце:
Мы провели валидацию на наборе данных DocVQA и получили 5286 правильных ответов из 5331 (99,16%) . Из этих 45 неправильных ответов только 18 являются истинными недостатками синтаксического анализа . DocVQA обычно используется для оценки моделей обработки изображений и языка, но мы являемся пионерами в использовании этого популярного набора данных для определения точности нашего API Agentic Document Extraction (ADE) Parse .
Главный вывод: LLM может ответить на 99,16% вопросов DocVQA, используя только разобранный ответ API от ADE , без доступа к изображению на этапе проверки качества . Наше новейшее предложение, ADE с моделью Document Pre-trained Transformer 2 (DPT-2) , проверяет изображение один раз для анализа и захватывает документ настолько полно, что этап проверки качества может пропускать пиксели и при этом почти всегда давать правильный результат.
Благодаря визуальной привязке (ограничивающие рамки и расположение элементов, указывающие на точный текст, таблицы, рисунки и даже отдельные ячейки таблиц на каждой странице), вы выполняете анализ один раз , а затем запускаете неограниченное количество запросов к структурированному выводу, обеспечивая отслеживаемость каждого ответа.
Мы публикуем примеры успешных случаев с использованием сложных документов , все 45 ошибок , а также предоставляем воспроизводимый код для обеспечения прозрачности. Контрольные показатели укрепляют уверенность; используйте их в сочетании с вашими данными, чтобы сделать ваш анализ максимально надежным . Мы настоятельно рекомендуем вам протестировать ADE на самых сложных документах в тестовой среде и сообщить нам, где мы можем вместе улучшить систему, чтобы полностью автоматизировать ваш конвейер обработки документов.
Посмотреть успехи и неудачи | Доступ к коду на GitHub
Реальная коммерческая ценность от точного анализа
Ещё раз хочу подчеркнуть ключевой момент: когда мы говорим, что достигли точности 99,16% на DocVQA, мы тестируем не модель обработки визуальной и языковой информации, а то, сохраняет ли наш обработанный результат достаточно информации, чтобы человек (или магистр права), который никогда не видел исходный документ, но видел его обработанное представление, всё ещё мог правильно ответить на вопросы.
Подумайте, что это может означать:
- Анализ документа один раз
- Сохраните структурированный вывод.
- Ответьте на миллионы вопросов из вашей базы данных.
- Сэкономьте деньги, не подвергая изображения повторной обработке.
Именно так масштабируются системы обработки документов. И это возможно только при исключительно высоком качестве парсинга. Помните, парсинг — это не просто ответы без изображений, это то, как вы управляете конвейерами обработки документов, обеспечивая контроль и доверие:
- Стоимость и задержка
Вам потребуется всего один проход по неструктурированным изображениям/PDF-файлам. Все последующие операции будут выполняться со структурированными данными.
- Происхождение и аудит
Каждое значение, которое вас интересует, ведет к соответствующему элементу, ячейке и странице.
- Проверка человеком
Координаты ограничивающей рамки и оценки достоверности могут помочь вашим рецензентам быстро найти нужные места.
- Поиск и аналитика
Визуально обоснованные текстовые индексы обеспечивают удобное индексирование для фильтров, трендов и бизнес-аналитики.
- Гибкость схемы
Вы всегда можете добавлять или изменять поля в любое время, не трогая пиксели снова.
- Конфиденциальность и управление.
Это позволяет вам редактировать временные интервалы, устанавливать правила хранения, делиться структурой и сохранять изображения в приватном режиме.
- Улучшенная маршрутизация
Вы можете использовать разобранные сигналы, чтобы отправить 1–2% наиболее сложных задач визуальной модели или эксперту-оценщику.
- Контроль качества и повторное использование
Структурированные данные упрощают отслеживание качества парсинга по разделам, таблицам или полям с течением времени и позволяют повторно использовать одни и те же данные для извлечения информации, контроля качества, поддержки или обеспечения соответствия требованиям.
- РАГ и агенты
Наконец, как вы, возможно, уже догадались, RAG и Agents лучше работают с фрагментами данных, полученными с земли, чем с необработанными изображениями.
Классификация ошибок рассказывает реальную историю.
Из 45 ошибок только 18 являются подлинными ошибками синтаксического анализа. Остальные либо не относятся к типичным задачам парсера, либо являются ошибками, которые можно устранить путем последующей обработки подсказок для получения точного ответа.
| Тип ошибки | Считать | % | Что это значит |
| Неправильный синтаксический анализ | 13 | 28,9% | Ошибки распознавания текста/анализа (путаница символов, неправильное прочтение). Некоторые изображения действительно сложны из-за частичного перекрытия и ужасного качества сканирования, но мы постоянно совершенствуемся и добиваемся лучших результатов даже в самых сложных случаях с каждым новым выпуском модели. |
| Пропуски экзаменов Prompt/LLM | 18 | 40% | Ошибки в рассуждениях или интерпретации. Ваши последующие эвристические алгоритмы или тщательно разработанная система подсказок легко помогут избежать подобных ошибок. |
| Не фокусируется на ADE | 9 | 20% | Вопросы пространственной компоновки выходят за рамки основной задачи любого парсера. |
| Неверный анализ | 5 | 11,1% | Информация, не извлеченная в процессе синтаксического анализа. В некоторых случаях парсер пропускает этап извлечения информации. Дьявол кроется в деталях, я рекомендую вам ознакомиться с этими примерами, чтобы понять, почему это происходит. |
| Проблемы с набором данных | 18 | — | Сомнительные исходные данные (исключены из подсчета и расчета точности). |
Наш подход к VQA еще сложнее.
Быстро становится очевидным, что извлечение всей информации из документа, независимо от заданных вопросов, оказывается сложнее по сравнению со стандартным DocVQA:
Стандартные системы VQA :
- Возьмите (изображение + вопрос)
- Подача данных в модель визуально-языкового восприятия
- Получите ответ
Наш подход :
- Для получения результата выполните анализ документа; вы получите как представление в формате Markdown, так и в формате JSON.
- Ответьте на все вопросы в формате md/json без изображения.
Ответы на вопросы
Мы использовали ADE Playground для ответа на вопросы, возникающие на основе обработанных данных. Конвейер обработки данных в Playground никогда не видит исходные изображения, а только использует извлеченный Markdown-код. Для оценки мы выполнили точное совпадение строк (без учета регистра) в точном соответствии с официальной методикой оценки DocVQA.
Путь к 99,16%
| Версия | Метод | Точность | Вход |
| Исходный уровень | Чат ADE Playground | 95,36% | Вывод Markdown из модели ADE DPT-2 |
| Финал | Чат ADE Playground + подсказки с инструкциями | 99,16% | Информация о графическом интерфейсе Markdown + визуальное заземление из модели DPT-2 |
Улучшение произошло благодаря:
- Использование JSON-вывода вместо Markdown обусловлено тем, что наш JSON содержит встроенную пространственную информацию (визуальную привязку), а не просто извлеченный текст.
- Оптимизированная структура подсказок для лучшей интерпретации вопросов и помощи приложению-платформе в понимании того, как использовать проанализированные данные для некоторых сложных документов в наборе данных DocVQA; примеры см. в разделе дополнительной литературы в конце или в галерее.
Примечание: вы можете воспроизвести результаты, выбрав LLM вместо функции чата на нашем игровом поле.
О DocVQA
DocVQA — это тест на проверку навыков понимания документов, основанный на реальных отсканированных документах из библиотеки отраслевых документов Калифорнийского университета в Сан-Франциско (UCSF). Созданный исследователями из Калифорнийского университета в Сан-Диего и Института искусственного интеллекта имени Аллена, он предназначен для проверки способностей к пониманию документов.
Набор данных для проверки : 5349 вопросов, представленных на 1286 изображениях документов.
Типы вопросов : извлечение фактов, пространственное мышление, понимание таблиц.
Оценка : Точное совпадение строки (без учета регистра)
Текущая таблица лидеров (тестовый набор данных, октябрь 2024 г.):
- Qwen2-VL: 97,25% (с доступом к изображениям)
- Исходный уровень у людей: ~96-98% (оценка)
Наш результат : 99,16% (на валидационном наборе данных с использованием модели DPT-2 от ADE)
Следующий шаг — публикация результатов на тестовом наборе данных в ближайшем будущем. Исходя из показателей валидации, а также схожего статистического распределения данных и сложности документов, мы ожидаем результатов, сопоставимых с передовыми.
Полная прозрачность: все недостатки доступны для ознакомления.
В сфере ИИ/машинного обучения общепризнано, что результаты тестов могут быть «подтасованы». Доверие не строится на сокрытии или обмане, поэтому мы стремимся к максимальной прозрачности, публикуя подтвержденные ошибки и код.
Мы включаем :
- Интерактивная галерея со всеми 45 ошибками и 63 из 5331 правильных ответов.
- Исходный код для воспроизведения всего
- Подробный анализ каждого результата с изображениями, прогнозами, эталонными данными, идентификаторами вопросов и классифицированными недостатками представлен в интерактивной галерее.
Вы можете сами оценить, насколько эти ошибки важны для вашего конкретного случая.
Повторюсь, речь идёт о построении доверия. Мы хотим, чтобы вы увидели, на что способен современный анализ документов, на что он не способен и где ещё остаются проблемы.
Попробуйте сами!
Хотите узнать, как работает парсинг ADE на ваших документах?
Попробуйте Agentic Document Extraction (ADE) : va.landing.ai
Есть вопросы? Свяжитесь с нами.
Присоединяйтесь к нашему сообществу в Discord, чтобы получать мгновенную поддержку и общаться с другими энтузиастами Document AI.
Скачать пост в формате PDF
Содержание
Источник: landing.ai






















