Image

Реальность сравнений ИИ-документов

9edff50eebb9c188b5cc083f64fcfafa 2d94f371b4d73d8a9aabb57516f89a7a Анкит Кхаре Поделиться на :

TL;DR

Бенчмарки в области документного ИИ легко подтасовать. Любой может представить свою систему как лучшую, особенно если набор данных, подсказки или методы оценки непрозрачны. Недавнее сравнение Docsumo, утверждающее о победе со счётом 116/120 над Landing AI и Mistral, выглядит впечатляюще на бумаге, но разваливается при ближайшем рассмотрении: отсутствуют стандартные показатели OCR (например, CER/WER), отсутствуют данные о достоверности данных и, вероятно, используются внутренние рецензенты вместо независимых оценщиков.

Их бенчмарк смешивает реальные показатели с маркетинговой мишурой — выборочно выбирают тестовые данные и не показывают результаты в реальном времени на игровой площадке или извлечения через API. В отличие от этого, прозрачные оценки (например, эпизоды «Will It Extract») показывают, насколько честными и воспроизводимыми должны быть сравнения.

Итог: относитесь к кричащим цифрам точности скептически. Истинная достоверность достигается за счёт прозрачности, воспроизводимости и демонстрации вашей работы, а не только за счёт достижения вами собственного эталона.

Введение

Реальность решений для анализа документов такова, что любой может представить своё решение лучшим. Хороший и знающий клиент/пользователь никогда не будет принимать результаты бенчмарка за чистую монету. Он проведёт собственное тестирование. На самом деле, иногда всё работает наоборот. Когда кто-то публикует своё решение для анализа документов и сравнивает его с GPT или Gemini, нужно быть ещё внимательнее и обращать внимание на то, как настроены запросы и сделаны ли все запросы и чаты общедоступными изначально. Потому что результат LLM зависит от того, как вы его подскажете и как сформулируете задачу.

Извлечет ли он заглушку!
Помните первый эпизод «Will It Extract»? Загляните сюда, если ещё не сделали этого! Я был абсолютно откровенен со всеми ссылками на чат ChatGPT и сравнительными видео в реальном времени, где я систематически подсказывал им и пошагово показывал весь процесс.

Обзор блога DocSumo

Согласно блогу Docsumo, из 120 тестовых документов, включая счета-фактуры, формы, банковские выписки и паспорта, OCR Docsumo был выбран в 116 случаях, в то время как Landing AI получил всего 4, а Mistral — 0. Эти поразительные результаты, наряду с отдельными примерами неудач конкурентов, рисуют картину Docsumo как явного победителя. Но насколько достоверны эти заявления? В данном анализе мы внимательно изучаем методологию оценки и заявления Docsumo, сопоставляем их с известными фактами и описываем, что должна включать в себя «надлежащая оценка». Наша цель — отделить маркетинговые уловки от объективной и конкретной оценки возможностей OCR.

Доказательства по сути – LandingAI против DocSumo

Эй, прежде чем читать дальше, почему бы нам просто не протестировать игровые площадки Docsumo и LandingAI? Я даже не буду много говорить. Видео заменит тысячу слов.

Более подробное изучение сравнительного отчета

На первый взгляд, отчёт Docsumo кажется исчерпывающим — они даже опубликовали примеры результатов на платформе HuggingFace, где с ними может ознакомиться любой желающий. Однако при более глубоком рассмотрении выявляются серьёзные проблемы с достоверностью, связанные с разработкой и представлением этого бенчмарка. Давайте подробно разберём эти проблемы.

1. Отсутствие объективных метрик: Результаты бенчмарков в значительной степени основаны на субъективных человеческих суждениях («подсчете предпочтений») и качественных примерах, а не на стандартных метриках точности OCR. В собственной документации Docsumo подчеркивается, что точность OCR должна измеряться количественными метриками, такими как частота ошибок в символах (CER), частота ошибок в словах (WER), точность на уровне поля и т. д., а также скоростью обработки. Фактически, частота ошибок в символах (процент неправильно распознанных символов) и точность/полнота на уровне слов широко используются в исследованиях OCR. Тем не менее, в отчете Docsumo не были опубликованы какие-либо показатели CER, WER или точности/полноты для трех систем. Без этих метрик невозможно строго проверить заявления о «более высокой точности». Единственным количественным результатом, о котором сообщалось, было количество документов (из 120), где выходные данные каждой системы были «предпочтительны» рецензентами — весьма субъективный критерий, если только не существовало строгих правил оценки (которые не были описаны).

2. Непрозрачная процедура оценки, проводимой людьми: Docsumo заявляет, что три рецензента независимо друг от друга оценили результаты, но не предоставляет подробностей о критериях или протоколе оценки. Были ли эти рецензенты сотрудниками Docsumo? (Вероятно, да, поскольку внешний аудит не упоминается.) На каком основании они решили, что один из результатов OCR лучше — общее визуальное сходство с оригиналом? количество ошибок? сохранение форматирования? В блоге просто представлен список предпочтений, где Docsumo побеждает в 97% случаев. Такой существенный перекос, естественно, вызывает подозрения в предвзятости подтверждения. Если бы оценщики знали, какой результат получен от Docsumo (тем более, что различия в макете могут сделать это очевидным), их суждения могли бы быть непреднамеренно предвзятыми в пользу их собственного продукта. В идеале достоверным бенчмарком был бы двойной слепой метод (рецензенты не знают, какой результат какой) и использование предопределенных рубрик оценки или количества ошибок. Docsumo не дает никаких указаний на то, что эти меры предосторожности были приняты.

3. Отсутствие публичной публикации тестовых данных: Хотя Docsumo предоставила результаты, сами входные документы (изображения/PDF-файлы), используемые в тесте, не доступны для скачивания в виде пакета для независимой проверки. Их можно вручную изучить на HuggingFace, но Docsumo не опубликовала точный текст для каждого изображения или любого скрипта, чтобы воспроизвести результаты. Без точных данных и метрик сообщество не может достоверно определить, сколько символов или полей каждая система допустила ошибку. По сути, нас просят доверять внутренней оценке Docsumo. Это противоречит духу научного бенчмаркинга, где тестовые наборы и метрики обычно предоставляются открыто. Как прямо сказал один из комментаторов Reddit: «Да ладно тебе, чувак, не используй слова вроде «объективность»… Это реклама». Отсутствие прозрачного, воспроизводимого протокола оценки серьёзно подрывает доверие к представленным результатам.

4. Наблюдения Docsumo также смешивают правду с преувеличением . В случае с агентским извлечением документов Landing AI наблюдения Docsumo также смешивают правду с преувеличением. Генеративные модели извлечения действительно могут перефразировать или описывать контент вместо извлечения дословного текста, например, интерпретировать логотип или марку словами. Docsumo отмечает случай, когда простой логотип «ABC» был преобразован моделью Landing в описание из 130 слов. Но заметили ли они, что библиотека Python сохраняет визуально обоснованное изображение? Разве это не является желаемым результатом для чьего-то варианта использования?

Аналогично, чтение вертикального текста — известная проблема: сообщалось о неправильном прочтении, например, «89000458» вместо «80000456». Это вполне реальная ошибка. Скорее всего, они использовали исследовательский релиз Эндрю, опубликованный в начале апреля, в котором были некоторые неточности. И заметьте, если кто-то изначально заявляет о 99%-ной точности, это, скорее всего, фантазия. Ну, да ладно.

5. Скорость. Если вы дочитали до этого момента, то уже знаете, что на создание игровой площадки ушло всего несколько секунд. Docsumo заявил, что на каждую страницу у нас уходило около минуты, а иногда и больше двух минут на некоторые страницы, но забыл упомянуть, что они пробовали версию для исследовательского релиза.

Заключение

Так зачем же я написал эту статью, лол? Потому что это был прекрасный пример того, почему к бенчмаркам, сравнениям и ярким метрикам всегда следует относиться внимательно и в контексте. Любой может одержать победу в своём тесте, если контролирует настройки. Важны не только цифры, но и то, как вы их достигли. Прозрачность укрепляет доверие. Когда вы делитесь подсказками, демонстрируете свои настройки и позволяете другим воспроизводить ваши результаты, вы не просто доказываете эффективность, вы доказываете честность.

Моя следующая статья, написанная совместно с нашим штатным руководителем по юридическим вопросам Шанкаром, о распределении валидации DocVQA, будет просто ошеломляющей — мы достигли точности более 95%, что ставит нас в тройку лидеров, — но, опять же, дело не в цифрах. Речь идёт о прозрачности, воспроизводимости и завоевании доверия, по одной оценке за раз.

Содержание

Источник: landing.ai

✅ Найденные теги: новости, Реальность

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Человек спит в кровати под красным пледом, солнечный свет падает на подушку.
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.
Человек рядом с изображением двойной спирали ДНК на фоне природы.
Залитый солнцем лес с деревьями и болотистой водой, покрытой зелёной растительностью.
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.
Деревянный минималистичный сундук с подсветкой в интерьере.
Обложка отчета о преодолении разрыва в операционном ИИ от MIT Technology Review.
Твит о разработке в 2026: выполнение сложных задач до пробуждения США, чтобы избежать проблем с ИИ.
Image Not Found
Человек в смокинге держит планеты Земля и Марс, символизируя космические достижения.

Почему SpaceX может выйти на биржу и с чем это может быть связано

Мы ведь явно не воспринимаем всерьез центры обработки данных в космосе? Элизабет Лопатто, старший репортер. Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего сайта. Все…

Мар 5, 2026
Твердотельный аккумулятор Donut на выставке, показывает замещающий литий-ион стоимость.

Согласно результатам испытаний, твердотельная батарея Donut Lab способна выдерживать (экстремальные) температуры.

Разработанная финским стартапом батарея не только выдержала экстремальные условия высокой температуры, но и фактически увеличила свою емкость. Эндрю Дж. Хокинс, редактор раздела «Транспорт». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в…

Мар 5, 2026
Пленка NeoFilm 100 на деревянном столе в окружении упаковок.

Цифровая камера OPT NeoFilm 100 в формате плёнки

Компактная камера OPT NeoFilm 100 выполнена в виде классической 35-мм плёнки, но внутри скрывается не аналоговый механизм, а цифровая «начинка», способная снимать фото и видео.  Камера оснащена 1-мегапиксельным сенсором, который позволяет получать изображения с разрешением до 3…

Мар 5, 2026
Деревянный минималистичный сундук с подсветкой в интерьере.

«Умная» кровать-трансформер Roll

Хорватский дизайнер Лука Булян разработал проект складной кровати Roll, которая по нажатию кнопки сворачивается в аккуратный деревянный шкаф. Главная идея строится на принципе ежедневного скручивания матраса без потери его свойств. Конструкция оснащена тихим электродвигателем и плавным механизмом…

Мар 5, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых