Узнайте, как извлекать важную информацию из ваших документов
Делиться

Документы содержат огромное количество важной информации. Однако эта информация во многих случаях скрыта глубоко в содержимом документов, и поэтому её сложно использовать для последующих задач. В этой статье я расскажу, как последовательно извлекать метаданные из документов, рассмотрев подходы к извлечению метаданных и трудности, с которыми вы столкнётесь на этом пути.
Статья представляет собой общий обзор извлечения метаданных из документов, в котором особое внимание уделяется различным факторам, которые следует учитывать при извлечении метаданных.

Зачем извлекать метаданные документа
Во-первых, важно прояснить, зачем нам нужно извлекать метаданные из документов. Ведь если информация уже присутствует в документах, разве мы не можем просто найти её с помощью RAG или других подобных подходов?
Во многих случаях RAG может найти конкретные точки данных, но предварительное извлечение метаданных упрощает множество последующих задач. Используя метаданные, вы можете, например, фильтровать документы по точкам данных, например:
- Тип документа
- Адреса
- Даты
Более того, если у вас есть система RAG, она во многих случаях выиграет от предоставления дополнительных метаданных. Это связано с тем, что дополнительная информация (метаданные) представляется LLM более наглядно. Например, предположим, вы задаёте вопрос, связанный с датами. В этом случае проще просто предоставить модели предварительно извлечённые даты документов, а не заставлять модель извлекать их во время вывода. Это экономит как затраты, так и время ожидания, и, вероятно, повысит качество ваших ответов RAG.
Как извлечь метаданные
Я выделю три основных подхода к извлечению метаданных, начиная с самого простого и заканчивая самым сложным:
- Регулярное выражение
- OCR + LLM
- Видение LLM

Регулярное выражение
Регулярные выражения — самый простой и последовательный подход к извлечению метаданных. Регулярные выражения хорошо работают, если вы заранее знаете точный формат данных. Например, если вы обрабатываете договоры аренды и знаете, что дата записывается в формате дд.мм.гггг, всегда сразу после слов «Дата:», то регулярные выражения — это то, что вам нужно.
К сожалению, обработка большинства документов гораздо сложнее. Вам придётся иметь дело с несогласованными документами и такими проблемами, как:
- Даты написаны в разных местах документа
- В тексте отсутствуют некоторые символы из-за плохого распознавания текста.
- Даты записываются в разных форматах (например, мм.дд.гггг, 22 октября, 22 декабря и т. д.)
По этой причине нам обычно приходится переходить к более сложным подходам, таким как OCR + LLM, которые я опишу в следующем разделе.
OCR + LLM
Эффективным подходом к извлечению метаданных является использование OCR + LLM. Этот процесс начинается с применения OCR к документу для извлечения текстового содержимого. Затем вы берёте OCR-распознанный текст и предлагаете LLM извлечь дату из документа. Обычно это работает невероятно хорошо, поскольку LLM хорошо понимают контекст (какая дата релевантна, а какие — нет) и могут распознавать даты, представленные в самых разных форматах. LLM во многих случаях также способны понимать как европейские (дд.мм.гггг), так и американские (мм.дд.гггг) стандарты дат.

Однако в некоторых случаях для извлечения метаданных требуется визуальная информация. В таких случаях необходимо применять самый передовой метод: степень магистра права (LLM) по зрению.
Видение LLM
Использование LLM-программ по зрению — самый сложный подход, требующий как больших задержек, так и больших затрат. В большинстве случаев реализация LLM-программ по зрению будет гораздо дороже, чем реализация LLM-программ, основанных исключительно на тексте.
При работе с LLM по зрению обычно необходимо обеспечить высокое разрешение изображений, чтобы LLM по зрению мог читать текст документов. Это требует большого количества визуальных маркеров, что удорожает обработку. Однако LLM по зрению, работающие с изображениями высокого разрешения, обычно способны извлекать сложную информацию, которую OCR + LLM не могут извлечь, например, информацию, представленную на изображении ниже.

Программы магистратуры по зрению также хорошо справляются с задачами, связанными с рукописным текстом, где оптическое распознавание символов может вызывать затруднения.
Проблемы при извлечении метаданных
Как я уже отмечал ранее, документы сложны и существуют в различных форматах. Поэтому при извлечении метаданных из документов приходится сталкиваться со множеством сложностей. Выделю три основные:
- Когда использовать зрение, а когда OCR + LLM
- Работа с рукописным текстом
- Работа с длинными документами
Когда использовать степень магистра права по зрению или степень магистра права по оптическому распознаванию символов (OCR) + степень магистра права по зрению
Предпочтительно использовать LLM, специализирующиеся на зрении, для извлечения всех метаданных. Однако обычно это невозможно из-за стоимости работы LLM, специализирующихся на зрении. Поэтому нам приходится решать, когда использовать LLM, специализирующиеся на зрении, а когда — OCR и LLM.
Один из вариантов — решить, требуется ли визуальная информация для извлекаемого метаданных. Если это дата, OCR + LLM подойдут практически во всех случаях. Однако, если вы знаете, что имеете дело с флажками, как в примере задачи, который я привел выше, вам необходимо использовать LLM для визуального восприятия.
Работа с рукописным текстом
Одна из проблем описанного выше подхода заключается в том, что некоторые документы могут содержать рукописный текст, который традиционное OCR не очень хорошо извлекает. Если ваше OCR плохое, извлечение метаданных с помощью LLM также будет неэффективным. Поэтому, если вы знаете, что имеете дело с рукописным текстом, я рекомендую обратиться к LLM со степенью по зрению, поскольку, основываясь на собственном опыте, они гораздо лучше справляются с рукописным текстом. Важно помнить, что многие документы будут содержать как изначально цифровой текст, так и рукописный текст.
Работа с длинными документами
Во многих случаях вам также придётся иметь дело с очень длинными документами. В этом случае необходимо учитывать, насколько глубоко в документе может располагаться точка метаданных.
Это необходимо учитывать, поскольку вы хотите минимизировать затраты, и если вам нужно обрабатывать очень длинные документы, вам потребуется много входных токенов для ваших LLM, что может быть затратно. В большинстве случаев важная информация (например, дата) присутствует в начале документа, и в этом случае вам не потребуется много входных токенов. Однако в других ситуациях важная информация может находиться на странице 94, и в этом случае вам потребуется много входных токенов.
Проблема, конечно, в том, что вы заранее не знаете, на какой странице находятся метаданные. Таким образом, вам, по сути, приходится принимать решение, например, брать только первые 100 страниц документа и предполагать, что метаданные доступны на первых 100 страницах практически для всех документов. В тех редких случаях, когда данные находятся на странице 101 и далее, вы пропустите точку данных, но зато значительно сэкономите на расходах.
Заключение
В этой статье я рассказал, как можно последовательно извлекать метаданные из документов. Эти метаданные часто критически важны для выполнения последующих задач, таких как фильтрация документов по точкам данных. Кроме того, я рассмотрел три основных подхода к извлечению метаданных с помощью Regex, OCR + LLM и LLM по зрению, а также рассмотрел некоторые проблемы, с которыми вы можете столкнуться при извлечении метаданных. Я считаю, что извлечение метаданных остаётся задачей, не требующей больших усилий, но которая может быть очень ценной для последующих задач. Поэтому я считаю, что извлечение метаданных останется важным в ближайшие годы, хотя, по моему мнению, мы увидим всё большее использование для извлечения метаданных исключительно LLM по зрению, а не OCR + LLM.
👉 Найдите меня в соцсетях:
🧑💻 Свяжитесь с нами
📩 Подпишитесь на мою рассылку
🐦 X / Твиттер
✍️ Средний
Вы также можете прочитать некоторые другие мои статьи:
- Создание глубоких исследовательских агентов с помощью LangGraph.
- Как провести комплексную крупномасштабную проверку LLM
Источник: towardsdatascience.com



























