Image

Эффект Даннинга — Крюгера в нейросети. OCR распознавание текста LLM: доверяй, но проверяй

67fe01fb66151b3988933be23c64ffa3

В череде серых офисных будней возникла насущная проблема. Есть сканы договоров, содержащие адреса пунктов (заправок) в табличной форме. Необходимо занести названия и адреса в базу, добавив геоданные. Можно сделать вручную, но это не наш метод. На дворе XXI век, автоматизация, да и простую лень никто не отменял. Бесплатные OCR распознаватели справляются плохо, особенно с таблицами, платные — не пробовал, жаба  бухгалтер не позволяет. Что же делать? И тут Qwen спешит на помощь! Скормил лист — вроде неплохо, вот оно счастье! Ан нет, опять «эмпирический опыт». Давайте посмотрим, что получилось, и с какими «когнитивными искажениями» пришлось столкнуться.

«Конница стояла над обрывом. И все было бы хорошо, если бы не одно но…»

Итак, поехали! Загружаем скан договора, содержащего таблицу АЗС с адресами, в формате pdf. Просим: «OCR распознать документ». Готово! Смотрим, что получилось. А получилось, на первый взгляд, прекрасно. Структурированный текст, без артефактов, таблицы можно выгрузить в формате csv или xlsx, из замечаний — фамилии подписантов искажены, как и некоторые слова. Но в целом — вроде все здорово, выгружай и работай дальше! Берем адрес, яндекс карты, и смотрим. Заправка? — заправка, координаты — вот они! Идем дальше. Заправка? — а нет заправки! Смотрим рядом — и рядом нет! Как так то?! Что пошло не так? Сверяем адрес в распознанном тексте с исходником, и …

Слева распознанный текст, справа - исходный
Слева распознанный текст, справа — исходный

Нате вам! Смотрим внимательно. «Ноградская» стала «Логранской»? Бывает. Буква «б» стала цифрой 6 — случается. Но позвольте — «50 лет Пионерии» стала «50 лет Победы» а «Пионерская» — «Комсомольской»?

А что дальше? А дальше еще смешнее.

Слева распознанный текст, справа - исходный
Слева распознанный текст, справа — исходный

Кроме типичных ошибок и интерпретаций типа «Гавриловых → Таврилоповых», «Чудного → Нужного», появилось много странного и настораживающего. Железная дорога стала кольцевой, ПМК стало МУП. А география вообще изменилась! Вместо г.Купино возник г. Куйбышев, Доволенский р‑н Довольное с. стало Здвинский р‑н, с. Здвинское, а р.п. Чистоозерное стал п.г.т. Искитимское (такого вообще нет, есть г. Искитим). Расстояние между этими пунктами не близкое, единственное что их объединяет — это райцентры. И, вишенка на торте — улица Щорса стала улицей Горького (с чего бы?). Попытка вразумить LLM промптами типа «OCR распознавание документа. Распознавать данные в таблицах точно. Если распознается с вероятностью меньше ХХ% ставить знак „!!!!!“» к успеху не привели. Машина стояла на своем.

Ну штош… Попробуем зайти с козырей. Заставим упрямую сыграть в «Поле чудес» — сначала прочитать по буквам, а потом угадать слово.

Рождение новой сущности
Рождение новой сущности

Failed. К Победе добавился Октябрь…

На этом эксперименты пришлось закончить, так как задачи разработать промпт не стояло, а время поджимало. Но некоторые выводы сделать можно.

Векторизация, заложенная в модель, создает видимость «правильности». И, как мы видим, логика распознавания может быть весьма причудливой. Скорее всего, «50 лет Победы» в географических названиях встречается существенно чаще, чем «50 лет Пионерии», а для коммунистического Китая что комсомол, что пионерия — молодежные объединения («Пионерская» → «Комсомольская»), райцентры — это райцентры (какая разница какие, в целом же правильно?). 

Главный же вывод тривиален. При распознавании текстов, особенно содержащих чувствительную информацию, лучше сверять исходник и результат очень тщательно, может даже побуквенно (замена «не» на «но» в юридическом тексте может привести к ошеломляющему результату). А уверенность машины в своей правоте — разве не аналог эффекта Даннинга — Крюгера?

P. S. Остается загадкой — чем же комдив Щорс так не угодил?

Источник: habr.com

✅ Найденные теги: новости, Эффект

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых