Ава Ся, 9 октября 2025 г. Поделиться:
Система Agentic Document Extraction (ADE) от LandingAI переводит рукописную информацию в цифровой формат, преобразуя эссе, рецепты и многовековые рукописи в структурированные, доступные для поиска и анализа данные. Разработанная для интерпретации документов так же, как это делают люди, система ADE сочетает в себе интеллектуальное восприятие текста и языка с агентным рабочим процессом , который считывает почерк, таблицы, подписи и печати как единое целое.
Эта технология решает давнюю проблему: традиционные системы оптического распознавания символов (OCR) не справляются с рукописным текстом или сложными макетами, но ADE точно считывает и контекстуализирует их в различных отраслях. Будь то проверка студенческих работ, оцифровка хрупких исторических писем или анализ медицинских записей, ADE обеспечивает точные транскрипции, которые остаются верными своему визуальному источнику.
В этой статье мы проведем исследование разнообразных реальных документов, чтобы показать, как ADE расшифровывает рукописный текст из классных комнат, архивов, больниц и даже разведывательных файлов времен холодной войны.
- В классе: расшифровка работ учащихся
- Пример: Эссе по экономике
- Пример: Рабочий лист по математике для урока
- Примеры: Рабочий лист с заданиями на заполнение пропусков и Таблица умножения
- В клинике: анализ важных медицинских записей
- Пример: Рецепт, написанный от руки.
- В архивах: Спасение истории от угасания чернил
- Пример: Шведское письмо 1793 года
- Пример: Договор купли-продажи рабыни 1855 года.
- Пример: письмо времен Гражданской войны 1859 года.
- Пример: лицензия рыболова штата Орегон 1910 года.
- Пример: муниципальный архив Испании 1930-х годов.
- В сфере государственного управления и разведки: анализ многоуровневой информации
- Пример: Свидетельство о ветеринарном осмотре (оленей Санты)
- Пример: Справочник ЦРУ по Берлину (1961)
Почему почерк сохраняется — и почему важно его извлечение
Рукописные материалы отнюдь не устарели и по-прежнему являются краеугольным камнем сбора информации в критически важных секторах:
- Образование: Учителя вручную проверяют миллионы письменных работ и экзаменационных заданий.
- Здравоохранение: жизненно важные рецепты и записи в медицинских картах пациентов часто пишутся от руки.
- Архивы: Многовековые бесценные культурные и исторические документы существуют только на бумаге.
- Государственный сектор и бизнес: Официальные формы, квитанции и полевые заметки часто заполняются вручную.
Каждый из этих документов представляет собой барьер между исходной информацией и полезными знаниями. ADE использует подход, ориентированный на данные, и обучается на разнообразных, специализированных наборах документов, от школьных тетрадей до клинических записей и исторических рукописей. Такое целенаправленное обучение позволяет ему распознавать нюансы каждого контекста: отличать рукописные ответы от печатных шаблонов, точно интерпретировать математические символы и следовать естественному потоку письменного языка в эссе. Таким образом, ADE выступает в роли моста, преобразуя рукописный контент в информацию, доступную для поиска, анализа и использования.
Обзор рабочего процесса ADE: анализ и извлечение
ADE использует двухэтапный рабочий процесс для преобразования сложных документов в структурированные данные: анализ и извлечение . Мы можем увидеть это в действии на примере листа ответов ученика по курсу AP Calculus BC.
На этапе разбора ADE точно транскрибирует всю страницу, безупречно обрабатывая сложную смесь математических интегралов, инструкций на английском языке и даже рукописных китайских иероглифов («没学»), а также забавный смайлик, нарисованный учеником в качестве ответа на одну из задач.

После обработки данных вступает в действие функция « Извлечение» . Здесь мы можем определить схему для организации необходимой информации, например, выделить со страницы только ответы. Мы также можем добавить инструкцию для ADE, чтобы она объяснила математическое обоснование каждого решения, превратив процесс извлечения в способ как фиксации, так и понимания работы студента. В этом примере мы добавили в схему поле answerExplained, инструкцию для ADE сгенерировать объяснение процесса решения на естественном языке, даже если такого текста нет в исходном документе. На панели «Извлеченные результаты» ADE не только извлекает рукописный интеграл и результат (∫… = 7,333) в answerText, но и автоматически заполняет answerExplained четким, удобочитаемым текстом: «Площадь области R находится путем интегрирования функции √x из…».

На этом этапе рабочий процесс ADE завершается, предоставляя структурированные данные JSON, готовые для любых последующих задач. Чтобы продемонстрировать возможности этого выходного файла, в нашей демонстрационной площадке представлен интерфейс чата . Этот пример показывает, как разработчик может создать приложение, позволяющее пользователям задавать вопросы в диалоговом режиме о документе. Например, пользователь может запросить значение китайских слов и получить правильное определение. Площадка также иллюстрирует, как внедрить важные меры безопасности: при попытке решить математическую задачу (которая требует генерации новой информации) чат отказывает. Для разработчиков, желающих быстро начать создание собственных приложений для поиска информации и чата, мы предоставляем вспомогательные скрипты и примеры рабочих процессов в нашем репозитории ADE LLM Retrieval на GitHub.

Как только вы разберетесь с рабочим процессом, вы сможете поэкспериментировать со своими рукописными документами, используя площадку для тестирования landingAI, показанную на этих изображениях, и скопировать примеры кода из площадки, чтобы интегрировать ADE непосредственно в свой собственный рабочий процесс агента.

Теперь пришло время рассмотреть больше примеров из мира почерка.
В классе: расшифровка работ учащихся
Задача: Работа ученика представляет собой сложную смесь печатных инструкций, диаграмм и уникального, развивающегося почерка. Задача состоит в том, чтобы извлечь не только слова, но и математические обозначения, символы и обратную связь, и все это на одной странице.
Пример: Эссе по экономике
Этот пример рукописного эссе по экономике уровня A-Level демонстрирует способность ADE интерпретировать сложные документы со смешанным содержанием, улавливая нюансы, которые стандартное оптическое распознавание текста (OCR) пропустило бы. Система демонстрирует здесь две передовые возможности. Во-первых, анализ структуры достаточно точен, чтобы распознавать важные нетекстовые подсказки, правильно определяя крошечную рукописную галочку в поле «Вопрос 9» вверху страницы, которая необходима для понимания того, на какой вопрос ответил студент. Во-вторых, ADE не просто игнорирует встроенную диаграмму; она анализирует визуальную информацию и генерирует подробное описание нарисованного студентом от руки экономического графика . Как видно из обработанного результата, она определяет оси и конкретные экономические кривые: «<Рукописный экономический график, показывающий цену (P) по оси Y и объем производства (Q) по оси X. Он включает кривые, обозначенные как MC, AC, AR, MR…>». Такое сочетание распознавания мелких выделенных фрагментов и описания сложных, нарисованных от руки визуальных элементов демонстрирует глубокое понимание контекста всего документа, обеспечивая гораздо более качественную и точную оцифровку, чем простое извлечение текста.

Пример: Рабочий лист по математике для урока
Этот пример математического задания демонстрирует возможности ADE в обработке высокотехнического и структурированного образовательного контента. Система показывает высокую способность распознавать и точно транскрибировать сложные математические обозначения , включая пределы и дифференциальные уравнения, присутствующие в задачах. Кроме того, используя заданную схему, ADE может извлекать важные метаданные со страницы для понимания её структуры. Она правильно идентифицирует нетекстовые символы, такие как галочки ✅, чтобы определить, какой ответ был выбран для данного вопроса. Параллельно она также анализирует и извлекает баллы, или отметки, связанные с каждой задачей. Эта двойная способность понимать как сложный математический контент, так и структурные метаданные делает её мощным инструментом для оцифровки и анализа учебных материалов.

Примеры: Рабочий лист с заданиями на заполнение пропусков и Таблица умножения
В интерфейсе чата мы можем увидеть, как разработчик мог бы создать приложение для проведения контекстного анализа, например, для автоматической оценки рабочих листов учащихся путем применения математических или грамматических правил к полученным ответам.
Для таблицы умножения мы просто попросили систему найти все неверные вычисления. Она немедленно проверила рукописные ответы и правильно определила, что «3 x 9 = 28», «8 x 3 = 22» и «6 x 3 = 16» были вычислены неправильно.

Аналогично, в упражнении по английской грамматике мы поручили системе найти грамматические ошибки. Чат не только точно определил ошибку в предложении 9: «Они танцуют», но и предложил правильный вариант. Когда мы попросили подвести итог, система точно сообщила, что был только один неправильный вопрос.

В клинике: анализ важных медицинских записей
Проблема: Медицинский почерк, как известно, очень трудночитаем. Это плотная смесь сокращений, стенографических обозначений дозировок и спешно написанного текста, где даже одно неверное толкование может иметь серьезные последствия.
Пример: Рецепт, написанный от руки.
На рукописном рецепте доктора С.С. Шуклы из Индии видно, как ADE расшифровывает написанный наспех, неровно. Он правильно интерпретирует такие инструкции, как «D3 должен быть 60 000 мг, 1 таблетка в неделю» и «Лактеп плюс 10 мл SOS», структурируя вывод для аптеки или электронной системы учета медицинских данных.


ADE точно извлекает названия лекарств и инструкции по дозировке из рецепта врача.
В архивах: Спасение истории от угасания чернил
Проблема: Исторические рукописи представляют собой борьбу со временем. Выцветшие чернила, архаичные формы букв, просачивание чернил и изношенная бумага создают значительные помехи, которые могут сделать документ нечитаемым для стандартного оптического распознавания символов (OCR).
Пример: Шведское письмо 1793 года
Это письмо из Стокгольма, датированное 1793 годом, представляет собой серьезную проблему из-за старой, пожелтевшей бумаги и архаичного немецкого почерка Куррент. ADE успешно преодолела эти препятствия, точно переведя сложный курсивный почерк в современный, читаемый текст. Однако анализ идет гораздо глубже, поскольку система также идентифицирует и классифицирует подпись и заметную красную восковую печать вместе как официальное «подтверждение» , даже генерируя подробное описание этой области. Полезность системы распространяется еще дальше в интерфейсе чата, где исследователь может мгновенно перевести переписанное немецкое письмо на английский язык , преодолевая языковые барьеры.


Письмо, которому 230 лет, оцифровано и снабжено возможностью поиска благодаря ADE.
Пример: Договор купли-продажи рабыни 1855 года.
Этот договор купли-продажи 1855 года, заключенный с порабощенной девушкой по имени Полли, представляет собой отрезвляющий исторический документ, оцифровка которого сопряжена со значительными трудностями из-за его содержания и физического состояния. Бумага сильно повреждена, с разрывами и растеканием чернил, скрывающими текст по краям и в складках. Программа ADE точно считывает рукописный шрифт XIX века и разлагает документ на ключевые компоненты: основной юридический текст, подписи свидетелей и официальную печать продавца.


Пример: письмо времен Гражданской войны 1859 года.
Это письмо 1859 года, глубоко личный и исторически значимый артефакт от бывшего раба к своей матери, требует как технической точности, так и глубокого уважения к его содержанию. Именно здесь возможности ADE в работе с архивными материалами оказываются незаменимыми. Компания точно переписала рукописный шрифт XIX века , преодолев трудности, связанные с выцветшими чернилами и помятой бумагой, чтобы гарантировать идеальную передачу таких трогательных строк, как «Если я добьюсь успеха в своих начинаниях, я сообщу вам все хорошие новости». Оцифровывая такой хрупкий и бесценный артефакт с такой точностью, ADE делает его историю доступной для поиска и изучения исследователями по всему миру, сохраняя важную часть истории для будущих поколений.

Текст извлечен из хрупкого, поврежденного исторического письма.
Пример: лицензия рыболова штата Орегон 1910 года.
Эта лицензия на рыбную ловлю штата Орегон 1910 года — превосходный пример исторического государственного документа, сочетающего печатный шаблон с рукописными данными, официальными подписями и рельефной печатью. Подход ADE к этому документу многогранен. Вместо того чтобы просто извлекать рукописные поля, такие как возраст и рост, как отдельные данные, система интеллектуально синтезирует их с печатным текстом, создавая полное, читаемое описание владельца лицензии. Затем система деконструирует нижнюю часть документа, идентифицируя официальные подписи как «подтверждения». Что наиболее впечатляет, система анализирует рельефную печать округа, считывая текст на ней, описывая ее центральный символ — солнце и горы, и даже разборчиво извлекая подпись, написанную непосредственно поверх печати . Этот всесторонний анализ, сочетающий синтез данных со структурным и визуальным анализом официальных печатей, бесценен для оцифровки муниципальных и государственных архивов, позволяя зафиксировать полный контекст и подлинность каждой записи.

Почерк корректно извлекается из обозначенных полей в соответствии с государственной лицензией.
Пример: муниципальный архив Испании 1930-х годов.
Это изображение муниципального постановления Аргентины 1982 года демонстрирует способность системы анализировать сложные официальные документы. Она точно обрабатывает напечатанный текст на испанском языке, а также идентифицирует и анализирует различные элементы, подтверждающие подлинность. Результат показывает, как система считывает текст с круглых синих чернильных штампов , предоставляет их визуальное описание и классифицирует их как официальные заверения. Кроме того, она выделяет рукописные подписи , правильно извлекает разборчивые имена и должности должностных лиц и классифицирует их как официальные подписи, сохраняя правовую и административную структуру оригинального документа.

В интерфейсе чата на тестовой площадке отображается демонстрационное приложение, выполняющее запрос к испанскому документу на английском языке. Оно может синтезировать информацию из нескольких источников для ответа на сложные вопросы, например, для идентификации всех должностных лиц, подписавших документ. Оно также выполняет специфический поиск данных , точно извлекая такие детали, как диапазон цен на услуги. Наконец, в чате отображается контекстное резюме приложения, содержащее информацию о происхождении и назначении документа. Это демонстрирует, как данные ADE позволяют создавать инструменты, которые делают сложные или иностранные документы мгновенно доступными и понятными.

В сфере государственного управления и разведки: анализ многоуровневой информации
Задача: Официальные документы часто содержат несколько уровней информации: основной текст, набранный на компьютере, рукописные пометки и официальные печати. Цель состоит в том, чтобы правильно разделить и каталогизировать каждый уровень.
Пример: Свидетельство о ветеринарном осмотре
Этот бланк для оленей Санты содержит как печатные заголовки, так и рукописные записи.

Это демонстрирует способность ADE обрабатывать сложные, содержащие большое количество таблиц формы. Система точно распознает всю сетку «ИДЕНТИФИКАЦИЯ ЖИВОТНЫХ», извлекая каждую рукописную запись, например, имена оленей, и правильно связывая ее с соответствующим заголовком столбца. Анализ выходит за рамки таблицы и охватывает весь документ, тщательно разбивая блок подписи ветеринара на структурированное «подтверждение» с его именем, адресом и номером лицензии. Это демонстрирует мощные комплексные возможности по оцифровке и структурированию сложных административных форм, преобразуя рукописные таблицы в организованные, машиночитаемые данные.

Пример: Справочник ЦРУ по Берлину (1961)
Эта рассекреченная обложка «Берлинского справочника» ЦРУ 1961 года является отличным примером сложного, многослойного документа и демонстрирует способность системы деконструировать «информационный коллаж» путем точной обработки каждого отдельного элемента.
ADE корректно расшифровывает смешанный текст, состоящий из машинописных, штампованных и рукописных фрагментов , фиксируя все — от секретности («СЕКРЕТНО») до критически важных пометок «МАСТЕРСКИЙ ЭКЗЕМПЛЯР» и аннотаций о распространении, написанных на полях.
Помимо текста, система проводит углубленный анализ графического оформления страницы. Она идентифицирует официальную печать ЦРУ, извлекая из нее текст и одновременно создавая подробное описание ее визуальных компонентов (орла, щита и розы ветров). Кроме того, она распознает стилизованное изображение Бранденбургских ворот, предоставляя подробное архитектурное описание этого неоклассического памятника. Эта способность анализировать и понимать документы, содержащие элементы разных медиа — разделять текст, официальные печати и иллюстрации — бесценна для создания всеобъемлющих цифровых архивов на основе сложных правительственных и разведывательных документов.

Заключение
От набросков алгебраических вычислений, сделанных учеником, до старинного пергамента, ADE создан для чтения, интерпретации и структурирования богатого мира рукописного контента.
Соединяя аналоговые средства выражения с цифровым интеллектом, ADE позволяет преподавателям быстрее проверять работы, историкам сохранять наше общее наследие, а специалистам во всем мире — получать доступ к рукописным знаниям, которые ранее считались недоступными.
Готовы начать?
- Изучите репозиторий GitHub.
- Протестируйте ADE вживую в Visual Playground.
Для обсуждения развертывания и ценообразования для крупных рабочих нагрузок свяжитесь с отделом корпоративных продаж.
Содержание
Источник: landing.ai



























