Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Proxy-Pointer RAG: Устранение неэффективного извлечения сущностей и связей в графах знаний.

Оптимизация распознавания именованных сущностей с учетом структуры для корпоративных систем GraphRAG.

Делиться

132ef245c58053ca75278666cbce5297
Сгенерировано с помощью Gemini

В моей предыдущей статье о решении проблемы разрастания сущностей и связей в графах знаний я обсуждал, как архитектура Proxy-Pointer может оптимизировать поиск нужных сущностей и связей. Однако это лишь вторая часть более масштабной проблемы обработки графов. Более важный — и гораздо более дорогостоящий — шаг заключается в первоначальной идентификации этих сущностей (NER) и связей.

Графы знаний создаются для обработки сложных запросов на агрегирование и многошаговые запросы к сущностям и связям в аналогичных документах — договорах с поставщиками, руководствах по соблюдению нормативных требований, кредитных соглашениях, глобальных условиях и положениях и т. д. Эти документы, как правило, превышают 100 страниц и содержат плотный текст, превышающий 500 000 символов. Предприятия часто обрабатывают тысячи аналогичных договоров от одних и тех же поставщиков и клиентов.

Для этого каждый из этих документов пропускается через мощный LLM-процесс для извлечения именованных сущностей и отношений, при этом сжигаются миллионы токенов еще до фактического ввода данных в граф. Этот процесс иногда приходится повторять, поскольку извлечение длинного контекста часто страдает от снижения согласованности полноты и увеличения дисперсии извлечения.

Однако, важнейший факт заключается в том, что юридические документы, такие как контракты, имеют очень схожую структуру в разных организациях и даже в разных отраслях. И они переполнены плотным стандартным текстом, приложениями, приложениями и т. д., большая часть которого имеет небольшую ценность для NER, но все равно должна быть просмотрена студентом магистратуры.

Но что, если бы мы могли использовать эту структурную предсказуемость? Что, если бы мы могли предсказать значение участка еще до того, как отправим его в LLM, резко сократив затраты на обработку за счет стратегического игнорирования шума?

В этой статье мы рассмотрим новый подход к минимизации контента, обрабатываемого LLM. Используя структурные концепции Proxy-Pointer RAG и вводя прогнозную метрику, называемую Graphability Indexing, мы можем выборочно обходить малоэффективные разделы плотных документов . Я иллюстрирую это на примере трех крупных корпоративных кредитных соглашений из реального мира — Emerson, AT&T и Texas Roadhouse — чтобы показать, как эта методология может значительно снизить затраты на извлечение данных по сравнению с конвейерами извлечения данных из всего документа, не жертвуя при этом целостностью результирующего графа знаний.

Краткое повторение: Что такое Proxy-Pointer?

Proxy-Pointer — это метод RAG, учитывающий структуру документа, который обеспечивает высокую точность при обработке сложных документов, таких как годовые отчеты, кредитные соглашения и т. д., за счет стандартного метода Vector RAG. Стандартный Vector RAG разбивает документы на «слепые» фрагменты, встраивает их и извлекает K лучших фрагментов по косинусному сходству. Даже с учетом перекрытия и семантического разбиения на фрагменты, это ненадежный метод для извлечения связей в корпоративных графах знаний, поскольку фрагменты фрагментируют контекст документа, что делает извлечение данных подверженным ошибкам.

Вместо этого Proxy-Pointer рассматривает документ как дерево самодостаточных семантических блоков (разделов) . Контекст заключен в каждом разделе, и поэтому они являются хорошими кандидатами для извлечения связей. Кроме того, LLM с гораздо большей вероятностью точно определит сущности и связи из раздела за один проход, чем из всего 100-страничного документа, что делает повторные сканирования ненужными.

С технической точки зрения, Proxy-Pointer использует пять методов проектирования RAG с нулевыми затратами: древовидную структуру документа, внедрение «хлебных крошек», структурно-ориентированное сегментирование, фильтрацию шума и контекст на основе указателей. Мы будем использовать некоторые из этих концепций, а также несколько новых. Подробнее о Proxy-Pointer можно узнать в статье здесь.

Существующие методы оптимизации распознавания именованных сущностей

Прежде чем рассматривать подход с использованием прокси-указатели, давайте взглянем на некоторые существующие методы оптимизации, применяемые организациями.

  1. Традиционные методы обработки естественного языка / предварительно обученные модели (например, spaCy) : Распространенный первый подход заключается в использовании облегченных традиционных конвейеров обработки естественного языка, таких как spaCy, в сочетании с моделью обработки лингвистических знаний (LLM) в рамках подхода «воронка». Эти модели чрезвычайно быстры и недороги, предварительно обучены распознавать стандартные сущности (лица, организации, местоположения, даты) и используются для сканирования документа на наличие областей с высокой плотностью сущностей. Затем эти области сканируются с помощью модели LLM целенаправленным образом. Однако плотность сущностей не обязательно коррелирует с плотностью связей. Например, стандартные административные документы, такие как «Уведомления» или «Приложения», могут быть наполнены стандартными сущностями (имена, адреса, даты) без каких-либо структурных юридических связей.
  2. Они также испытывают трудности с обработкой специфических корпоративных структур (таких как скорректированная срочная процентная ставка SOFR или кредиты с плавающей процентной ставкой) и не подходят для извлечения сложных, вложенных связей, необходимых для сильно ограниченного юридического графа знаний. Кроме того, постоянная тонкая настройка этих моделей для достижения необходимой точности требует значительных усилий по ручной аннотации и вычислительных затрат.
  3. Предварительное сканирование с помощью LLM (меньшие модели маршрутизатора) : Другой подход заключается в использовании меньшей и более дешевой модели LLM для быстрого предварительного сканирования фрагментов и определения, содержат ли они ценные связи, прежде чем отправлять только высокоценные фрагменты в большую модель рассуждений для глубокого извлечения. Хотя это дешевле в расчете на токен, мы все равно заставляем модель читать каждое слово документа длиной в 500 000 символов. И это также является неэффективным двойным сканированием больших частей документа.

Подход с использованием прокси-указатели

Как уже упоминалось ранее, Proxy-Pointer использует следующие свойства графов знаний:

  • Графы создаются для определенной предметной/функциональной области и, следовательно, хранят схожее содержимое документов. Граф закупок будет содержать множество договоров с поставщиками (а также множество договоров с одним и тем же поставщиком), финансовый граф будет содержать множество документов кредиторов и кредитных организаций, документов по соблюдению нормативных требований и т. д.
  • Документы имеют схожую базовую структуру — разделы, приложения, иллюстрации и т. д. И лишь небольшая часть содержимого достаточна для извлечения значимых сущностей и связей. Задача состоит в том, чтобы идентифицировать это содержимое.

Мы используем эту предсказуемость на следующих этапах:

  • Создайте и внедрите базовый индекс графируемости : начните с базового индекса для определенного типа документа (например, кредитных соглашений). Разделы классифицируются по степени графируемости: очень высокая, высокая, средняя, низкая и очень низкая. Рейтинг графируемости определяется плотностью связей — объемом действующих деловых связей (ребер) относительно размера раздела, — а не количеством сущностей (узлов). Это позволяет избежать классификации разделов с высокой плотностью сущностей, но общих, таких как уведомления или приложения, как разделы с высокой графируемостью. На основе этой методологии, payment of obligations классифицируется как раздел с очень высокой графируемостью, тогда как Duties of Agent или Governing law классифицируются как разделы с низкой графируемостью. Однако есть важное исключение. Хотя большинство разделов оцениваются по плотности связей, онтологические основы, такие как «Дочерние компании», имеют уровень графируемости «Очень высокий», поскольку их немногочисленные ребра определяют критическую корпоративную иерархию, которую наследуют остальные правила контракта. Это сохраняет ценность индекса как бизнес-тепловой карты, а не как чисто технической карты, основанной на плотности сущностей или связей.
  • Создание древовидной структуры : Мы создаём древовидную структуру документа, в которой в качестве узлов отображается иерархия разделов, а также заголовки разделов.
  • Обогащение и корректировка : Мы проходим по дереву, а не по тексту. Мы используем первые несколько документов для уточнения и повышения точности указателя. Извлекаем содержимое каждого раздела на основе номеров строк. Используем заголовок раздела для определения прогнозируемого индекса доходности. Затем LLM сканирует все разделы документа и на основе извлеченных связей и сущностей проводит фактическую оценку индекса доходности для каждого раздела. В случаях, когда прогнозируемые и фактические оценки не совпадают, они помечаются для проверки человеком (например, фактическая классификация указывает на «Низкий», а прогнозируемая оценка из указателя — на «Средний»). На основе экспертных оценок классификация в указателе корректируется.
  • Маршрутизация и обход : Следуя описанному выше процессу, после обработки нескольких документов мы сможем получить расширенный индекс графируемости. Затем высокоэффективные разделы (очень высокий, высокий, средний) отправляются в LLM для глубокого извлечения именованных сущностей. Низко- и очень низкоэффективные разделы безопасно обходятся.
  • Новые разделы : В каждом документе будет несколько разделов, отсутствующих в индексе, которые будут помечены как «Пробелы в покрытии». Они в обязательном порядке сканируются на предмет распознавания именованных сущностей (NER), чтобы избежать пропуска важных связей. После проверки человеком, разделы, которые считаются общими и часто встречающимися, могут быть добавлены в индекс, в то время как специфические разделы, такие как Benchmark Replacement Setting могут быть проигнорированы.
  • Достижение стабилизации. После всего нескольких итераций мы ожидаем, что расхождения в прогнозах снизятся почти до нуля, а объем «новых разделов» стабилизируется на уровне не более 20-25% (что соответствует специфическим или административным положениям), позволяя системе уверенно обрабатывать огромные массивы документов с правильным балансом точности и эффективности.

Индекс графируемости следует поддерживать для каждого типа документов, и, возможно, он может быть даже специфичным для отдельных крупных поставщиков и партнеров, от которых мы можем получать сотни подобных документов в год.

Давайте посмотрим, как это работает на практике, в ходе эксперимента.

Экспериментальная установка

Для проверки этой гипотезы я провел эксперимент, используя три крупных, общедоступных корпоративных кредитных соглашения, которые я ранее использовал в своей статье об эффективном сравнении контрактов с помощью Proxy-Pointer. Как вы можете видеть, все они принадлежат разным компаниям (и отраслям), поэтому документы не имеют идентичной структуры и формата.

  1. Компания Emerson Electric (~228 000 символов)
  2. AT&T Inc. (~214 000 символов)
  3. Texas Roadhouse, Inc. (TRoadhouse) (~434 000 символов)

Базовый индекс графической доступности

Наша цель — создать и итеративно проверить прогнозируемый индекс графируемости. Мы начинаем с базового индекса, сопоставляющего распространенные разделы кредитных соглашений с их ожидаемой плотностью взаимосвязей:

 { "document_type": "credit_agreement", "very_high_graphability": [ "Litigation", "Environmental Matters", "Subsidiaries", "Payment of Obligations", "Maintenance of Property", "Mergers and Sales of Assets", "Commitment Schedule", "Sanctions and Anti-Corruption", "Designation of Subsidiary Borrowers", "Definitions", "Events of Default", "Successors and Assigns" ], "high_graphability": [ "Company Guarantee", "The Facility", "Facility Letters of Credit", "Corporate Existence and Power", "Corporate Authorization", "Financial Information", "Compliance with Laws", "Use of Proceeds", "Arranger and Syndication Agent", "Eurocurrency Payment Offices", "Defaulting Lenders" ], "medium_graphability": [ "Swing Line Loans", "Competitive Bid Advances", "Credit Extensions", "Designation of a Subsidiary Borrower", "Successor Agent", "Funding Indemnification", "Acceleration and Collateral Accounts", "Collateral" ], "low_graphability": [ "Accounting Terms", "Interest Rate Changes", "Method of Payment", "Telephonic Notices", "Market Disruption", "Judgment Currency", "Change in Circumstances", "Confidentiality" ], "very_low_graphability": [ "No Waivers", "Counterparts and Integration", "Governing Law", "Waiver of Jury Trial", "No Fiduciary Duty", "Service of Process", "Miscellaneous", "Electronic Communications", "Exhibit", "Table of Contents" ] }

Мы будем выполнять эти действия в 3 этапа. Сначала проведем анализ соглашения Emerson для расчета первоначальной экономии. Любые общие непокрытые участки (дельты), обнаруженные в Emerson, будут включены обратно в индекс. Затем мы проведем анализ расширенного индекса на основе данных AT&T, включим в индекс любые окончательные крайние случаи, если это необходимо, и используем полностью уточненный индекс на основе масштабного соглашения TRoadhouse для измерения окончательного сокращения. Цель состоит в том, чтобы к моменту анализа соглашения TRoadhouse мы увидели значительно меньше несоответствий, чем в двух предыдущих случаях, по мере стабилизации индекса.

Критерии оценки

Для каждого раздела мы будем сравнивать прогнозируемую графическую пригодность индекса с фактической оценкой, выставленной LLM на основе найденных связей и сущностей. В нашем отчете мы разделим результаты на три категории:

Идеальное выравнивание : Индекс точно предсказал рейтинг графической доступности раздела.

Незначительные отклонения : Индекс прогнозировал урожайность (например, среднюю), которая немного отличалась от оценки, данной вручную (например, низкую).

Пробелы в охвате / Новые разделы : Этот раздел был уникальным для данного документа и еще не существовал в нашем прогностическом индексе.

Результаты и итеративное обогащение

Начнём с первого этапа — Эмерсон

Этап 1: Кредитное соглашение с компанией Emerson (проверка базового уровня)

Мы провели анализ 95 разделов этого соглашения с использованием нашего базового индекса. В этом первом анализе 66 из 95 разделов (70,0%) совпали идеально. Индекс точно определил стандартные положения, такие как «Слияния и продажи активов», как легко поддающиеся графическому представлению, и правильно определил «Бухгалтерские условия» и стандартные типовые приложения как низкодоходные. Несоответствий между фактическими и прогнозируемыми рейтингами индекса не было.

Однако мы обнаружили, что 29 разделов (~30%) были помечены как «Новый раздел» и, следовательно, были определены как « Пробелы в охвате ». После проверки выяснилось, что, хотя многие из них представляли собой узкоспециализированные административные положения (например, «Рационализированные авансы», «Уведомление об авансах») и, следовательно, были правильно оставлены как пробелы, несколько общих разделов (таких как «Типы авансов», «Соответствие ERISA» и «Даты выплаты процентов; процентная и комиссионная база») следует добавить в индекс. На основе оцененной фактической доходности я добавил эти конкретные положения в «Средний» и «Низкий» уровни индекса графируемости и обогатил базовый уровень для следующего этапа.

Наиболее важный результат заключается в том, что даже при использовании этого базового индекса 36 880 символов текста, включающих значения «низкий» и «очень низкий» выходной уровень, были успешно распознаны индексом как шум. Следовательно, это могло бы привести к снижению полезной нагрузки обработки LLM на 16,10%, если бы эти данные не были направлены в LLM.

Эффективность прогнозирования качества совпадений и урожайности суммируется следующим образом:

Соответствующие рейтинги Количество разделов Общее количество символов % от общего количества документов
Очень высокий 13 61,360 26,79%
Высокий 13 83,040 36,26%
Середина 17 27,840 12,16%
Низкий 15 12 800 5,59%
Очень низкий 8 24,080 10,51%
Несоответствие рейтинга 0 0 0,00%
Новый раздел 29 19,920 8,70%
ОБЩИЙ 95 229,040 100.00%

Ниже приведены несколько строк из базовой таблицы для сравнения по разделам:

 Node ID Section Header Approx. Chars Entities (Est.) Relations (Est.) Actual Rating Predicted Rating (Index Match) Match Quality 0002 Section 1.01 Definitions 44,400 252 402 Very High Very High (Definitions) 🟢 0003 Section 1.02 Accounting Terms and Determinations 320 4 4 Low Low (Accounting Terms) 🟢 0004 Section 1.03 Types of Advances 800 19 2 Low New Section ⚪ 0006 Section 2.01 The Facility 2,320 27 21 High High (The Facility) 🟢 0007 Section 2.02 Ratable Advances 3,840 56 19 Very High New Section ⚪

И наконец, вот несколько примеров извлечения данных:

 - **Company Guarantee (Very High)**: - *Entities*: Guarantor, Agent, Obligations - *Relations*: [Guarantor]-(guarantees)->[Obligations], [Guarantor]-(indemnifies)->[Agent] - **Mergers and Sales of Assets (Very High)**: - *Entities*: Borrower, Assets, Buyer - *Relations*: [Borrower]-(sells)->[Assets], [Borrower]-(merges_with)->[Buyer] - **Ratable Advances (Very High)**: - *Entities*: Advance, Lender, Borrower - *Relations*: [Lender]-(makes)->[Advance], [Borrower]-(receives)->[Advance] - **Method of Payment (Low)**: - *Entities*: Agent, Accounts, Funds - *Relations*: None (purely administrative procedural instructions with minimal active relational edges)

Этап 2: Кредитное соглашение с AT&T (уточнение)

Далее мы применили расширенный индекс к кредитному соглашению AT&T. Документ содержал 77 разделов, охватывающих примерно 214 000 символов.

Результаты показали значительное улучшение. 55 из 77 разделов (71,4%) достигли идеального выравнивания, что практически идентично показателю Эмерсона. Кроме того, было 4 раздела с несовпадением , где фактические и прогнозируемые оценки графируемости не совпадали. Это составляет всего около 5%, и поэтому эти данные не были скорректированы в индексе во избежание переобучения на основе каждого документа. Только 18 разделов (23,4%) привели к пробелам в покрытии , что является улучшением по сравнению с 30% у Эмерсона. И все они были оценены как специфический/процедурный шум с точки зрения KG — вычисление временных периодов, продление даты окончания, подчинение и т. д. Это разделы с низкой или очень низкой эффективностью с точки зрения NER, и их следует добавить в индекс, чтобы предотвратить сканирование их LLM для нового документа. Однако, чтобы проверить надежность эксперимента, я не добавлял их в индекс, чтобы посмотреть, как существующий индекс работает по сравнению с документом TRoadhouse.

Потенциальная экономия от использования LLM значительно возросла. Поскольку индекс уверенно определял большие области документа как малоэффективные (например, определение процентной ставки, увеличение затрат и т. д., помимо оглавления и последующих приложений), система отметила 72 763 символа как не подлежащие сканированию. Следуя этому индексу в процессе работы, удалось добиться снижения нагрузки на обработку на 33,94% , при этом сохранив все ценные реляционные связи в документе.

Эффективность прогнозирования качества совпадений и урожайности суммируется следующим образом:

Соответствующие рейтинги Количество разделов Общее количество символов % от общего количества документов
Очень высокий 5 53,520 24,96%
Высокий 9 41,840 19,51%
Середина 15 20 000 9,33%
Низкий 12 10 960 5,11%
Очень низкий 14 61,803 28,83%
Несоответствие рейтинга 4 4,880 2,28%
Новый раздел 18 21,397 9,98%
ОБЩИЙ 77 214 400 100.00%

Вот несколько строк из таблицы анализа рейтингов разделов:

 Node ID Section Header Approx. Chars Entities (Est.) Relations (Est.) Actual Rating Predicted Rating (Index Match) Match Quality 0017 SECTION 2.12. Payments and Computations 1,520 21 5 Low Low (Payments and Computations) 🟢 0018 SECTION 2.13. Taxes 3,360 14 10 Medium Medium (Taxes) 🟢 0019 SECTION 2.14. Sharing of Payments, Etc. 800 8 6 Low Low (Sharing of Payments) 🟢 0020 SECTION 2.15. Evidence of Debt 640 10 2 Low Low (Evidence of Debt) 🟢 0021 SECTION 2.16. Use of Proceeds 320 8 4 High High (Use of Proceeds) 🟢 0022 SECTION 2.17. Increase in the Aggregate Commitments 2,800 22 9 Medium New Section ⚪ 0023 SECTION 2.18. Extension of Termination Date 3,120 20 25 Medium New Section ⚪ 0024 SECTION 2.20. Replacement of Lenders 1,920 19 12 Medium Medium (Replacement of Lenders) 🟢 0025 SECTION 2.21. Benchmark Replacement Setting 12,560 61 31 High High (Benchmark Replacement Setting) 🟢

А вот несколько примеров извлечения данных:

 - **Certain Defined Terms (Very High)**: - *Entities*: Base Rate, Margin, SOFR - *Relations*: IS_A, PART_OF, CONTROLS, ROLE_OF, REFERENCES (Definitions form the ontology backbone, creating canonical entity normalization and robust semantic inheritance) - **Conditions Precedent (Medium)**: - *Entities*: Closing Date, Certificates, Approvals - *Relations*: [Lender]-(requires)->[Certificates], [Agent]-(receives)->[Approvals] - **Accounting Terms; Interpretive Provisions (Low)**: - *Entities*: GAAP, Accounting Principles - *Relations*: None (purely administrative and interpretive provisions with minimal active relational edges

Этап 3: Кредитное соглашение Troadhouse (Финальное испытание)

Хотя для обогащения индекса графируемости мы использовали только первый документ, давайте протестируем кредитное соглашение Texas Roadhouse и посмотрим на результат. Прежде чем это сделать, важно рассмотреть несколько различий не только между документами, но и между предметной областью и отраслью. Emerson и AT&T — очень крупные, ведущие поставщики коммунальных и телекоммуникационных услуг, в то время как Texas Roadhouse — это сеть ресторанов среднего размера. Соглашения Emerson и AT&T выглядят как суверенный корпоративный казначейский документ, основанный на рейтингах кредитных агентств, в то время как соглашение Texas Roadhouse сильно адаптировано под конкретные условия аренды ресторанов. По размеру этот документ, содержащий 434 000 символов, почти равен по размеру двум предыдущим вместе взятым, и включает более 100 разделов в древовидной структуре. Другими словами, если индекс графируемости покажет здесь хорошие результаты, предположение о том, что структура документа может считаться точным индикатором доходности сущностей и связей, будет доказано вне всякого сомнения.

И вот результаты. Индекс показал исключительно хорошие результаты. 81 из 102 разделов (79,4%) идеально соответствовали индексу. Не было ни одного раздела, где фактический рейтинг не совпадал бы с прогнозируемым. Модель безупречно классифицировала важные разделы, такие как «Аккредитивы» и стандартные «Подтверждающие/Отрицательные соглашения», как высокодоходные, что должно привести к полной выдаче кредита. Остальные 21 раздел (20,6%), классифицированные как пробелы в покрытии, представляли собой смесь низкодоходных административных положений (например, округление, ошибочные платежи) и процедурных ошибок (например, подразделения, обязательства и т. д.).

Однако истинное влияние проявилось в эффективности полезной нагрузки. Помимо приложений, было выявлено несколько разделов с низкой доходностью, таких как бухгалтерские термины, округление, административный агент, прочее и т. д. Приложения анализировались на основе их индивидуальной стоимости. Хотя некоторые приложения, такие как «Залоговые права» и «Инвестиции», соответствовали индексу «Высокий уровень», другие, такие как «Существующие аккредитивы», были классифицированы как неэффективные.

Общий показатель «Низкий + Очень низкий» подтверждает чистую экономию в 38% за счет следования прогнозам и полного исключения этих участков. Это подтверждает жизнеспособность подхода.

Вот таблица эффективности обработки продукции:

Соответствующие рейтинги Количество разделов Общее количество символов % от общего количества документов
Очень высокий 11 128,840 29,64%
Высокий 12 30,320 6,98%
Середина 20 25 000 5,75%
Низкий 17 9520 2,19%
Очень низкий 21 155 000 35,66%
Несоответствие рейтинга 0 0 0,00%
Новый раздел 21 85,960 19,78%
ОБЩИЙ 102 434,640 100.00%

Вот несколько примеров оценок разделов:

 Node ID Section Header Approx. Chars Entities (Est.) Relations (Est.) Actual Rating Predicted Rating (Index Match) Match Quality 0104 7.14 Financial Covenants 720 12 1 Very High Very High (Financial Covenant) 🟢 0105 8.01 Events of Default 3,200 30 21 Medium Medium (Events of Default) 🟢 0108 Article 9: ADMINISTRATIVE AGENT (Aggregated) 4,880 2 0 Low Low (Duties of Agent) 🟢 0119 Article 10: MISCELLANEOUS (Aggregated) 18,000 2 0 Very Low Very Low (Miscellaneous) 🟢 0144 Schedule 2.01A Commitments 4,000 2 0 Very High Very High (Commitment Schedule) 🟢 0145 Schedule 2.01BL/C Commitments 2,000 2 0 Very Low New Section ⚪ 0146 Schedule 2.03 Existing L/Cs 3,000 3 0 Very Low New Section ⚪ 0147 Schedule 5.01 Jurisdictions 6,000 2 0 Very Low New Section ⚪ 0159 Schedule 5.06 Litigation 5,000 2 5 Very High Very High (Litigation) 🟢 0161 Schedule 5.09 Environmental 8,000 2 5 Very High Very High (Environmental Matters) 🟢 0163 Schedule 5.13 Subsidiaries 40,000 2 5 Very High Very High (Subsidiaries) 🟢

И наконец, несколько примеров извлечения данных:

 - **Financial Covenants (Very High)**: - *Entities*: Borrower, Leverage Ratio, Fixed Charge Coverage Ratio - *Relations*: [Borrower]-(maintains)->[Leverage Ratio] - **Investments & Liens (High)**: - *Entities*: Borrower, Lien, Property, Permitted Investments - *Relations*: [Borrower]-(grants)->[Lien], [Borrower]-(makes)->[Permitted Investments] - **Defined Terms (Very High)**: - *Entities*: Adjusted Term SOFR, Base Rate, Defaulting Lender - *Relations*: IS_A, PART_OF, CONTROLS, ROLE_OF, REFERENCES (Definitions form the ontology backbone, creating canonical entity normalization and robust semantic inheritance)

Заключение

Современные конвейеры обработки графов знаний принципиально неэффективны. Мы заставляем дорогостоящие LLM-системы сканировать целые корпоративные корпуса данных, хотя лишь небольшая часть этих документов содержит значимую реляционную информацию.

В данной статье показано, что сама структура документа может служить надежным индикатором эффективности извлечения графов.

Сочетая структурное понимание Proxy-Pointer с индексированием графов (Graphability Indexing), мы можем перевести обработку графов знаний с грубого семантического сканирования на целенаправленную структурную маршрутизацию. Вместо многократной обработки целых соглашений длиной в 500 000 символов система обучается определять, какие области семейства документов постоянно содержат ценные сущности и связи, а какие представляют собой в основном шаблонный шум. Мы можем просто игнорировать шум, не прибегая к таким обходным путям, как уменьшение размера LLM для снижения затрат.

В рамках трех крупных реальных кредитных соглашений из разных отраслей индекс быстро стабилизировался всего после нескольких итераций и неизменно обеспечивал значительное снижение полезной нагрузки при сохранении высокой ценности извлечения данных.

Что еще более важно, это указывает на необходимость пересмотра нашего представления об архитектуре извлечения информации. Вместо того чтобы рассматривать документы как плоские текстовые потоки, Proxy-Pointer рассматривает их как структурированные семантические деревья, способные предсказывать, где, вероятно, находятся значимые знания, еще до начала извлечения.

Поскольку корпоративные системы GraphRAG масштабируются до миллионов контрактов, документов, политик и соглашений, такой подход к сбору данных с учетом структуры может помочь сделать построение крупномасштабных графов знаний операционно устойчивым.

Репозиторий с открытым исходным кодом

Proxy-Pointer — это полностью открытый проект (лицензия MIT), доступный в репозитории Proxy-Pointer на GitHub. Установить его можно одной командой pip с помощью установщика пакетов.

Клонируйте репозиторий. Попробуйте свои собственные документы. Поделитесь своими впечатлениями.

Свяжитесь со мной и поделитесь своими комментариями на сайте www.linkedin.com/in/partha-sarkar-lets-talk-AI

Используемые здесь кредитные соглашения находятся в открытом доступе на сайте SEC.gov. Код и результаты сравнительных тестов являются открытым исходным кодом под лицензией MIT. Изображения, использованные в этой статье, созданы с помощью Google Gemini.

Парта Саркар. Все материалы от Парты Саркара.

Источник: towardsdatascience.com

✅ Найденные теги: Pointer, Proxy, Proxy-Pointer, RAG, Неэффективного, новости, Устранение

Добавить комментарий

Новости других рубрик

Архив рубрики ~Обо всем~: ExpressVPN значительно превосходит конкурентов по результатам проверок безопасности, но что они означают? Архив рубрики ~Обо всем~: Плей-офф НБА 2026: Как посмотреть 7-й матч «Сан-Антонио Спёрс» против «Оклахома-Сити Тандер» сегодня вечером Архив рубрики ~Обо всем~: В этом самодельном двуногом роботе вместо двигателей используются пневматические «воздушные мышцы». Архив рубрики ~Обо всем~: По сообщениям, в iOS 27 Apple Intelligence позволит выбирать сторонние модели искусственного интеллекта. Архив рубрики ~Обо всем~: 5 лучших практик для миграции на новую CRM-систему Архив рубрики ~Обо всем~: Подсказки и ответы из спортивного выпуска NYT за 30 мая, № 614. Архив рубрики ~Обо всем~: Метакогнитивная регуляция может оказаться самым важным навыком ИИ, о котором никто не говорит. Архив рубрики ~Обо всем~: Власти Пенсильвании подали в суд на компанию Character.AI из-за чат-ботов, которые выдают себя за лицензированных врачей.