Компания Mistral запускает OCR 4, превращая извлечение информации из документов в полноценную корпоративную систему искусственного интеллекта.

25.06.2026 ideipro.ru

Майкл Нуньес

Компания Mistral AI во вторник выпустила OCR 4, модель распознавания текста в документах, которая выходит за рамки простого извлечения текста и возвращает структурированные представления целых документов — с указанием ограничивающих рамок, классификацией типов блоков и оценками достоверности для каждого слова. Этот релиз знаменует собой четвертое поколение технологии оптического распознавания символов от Mistral примерно за 15 месяцев и выходит в момент, когда стремление компании к суверенитету над ИИ в Европе стало как никогда актуальным с коммерческой точки зрения.

Модель поддерживает 170 языков в 10 языковых группах, принимает форматы PDF, DOC, PPT и OpenDocument и может быть развернута как единый контейнер на собственной инфраструктуре организации — возможность, которую Mistral позиционирует непосредственно для предприятий в регулируемых отраслях, которые не могут передавать конфиденциальные документы через облачные API, находящиеся в юрисдикции США.

«Mistral OCR 4 извлекает и структурирует контент из широкого спектра документов», — говорится в заявлении компании. «Если предыдущие поколения фокусировались на преобразовании страницы в чистый текст и таблицы, то OCR 4 возвращает структурированное представление документа».

Модель доступна уже сейчас через API Mistral, Document AI в Mistral Studio, Amazon SageMaker и Microsoft Foundry, а поддержка Snowflake Parse Document появится в ближайшее время. Цена начинается от 4 долларов за 1000 страниц и снижается до 2 долларов за 1000 страниц при пакетной обработке через API.

OCR 4 рассматривает каждый документ как семантическую карту, а не как сплошной текст.

Главное инженерное изменение в OCR 4 носит структурный характер. Вместо вывода плоского потока извлеченного текста — парадигмы, которая определяла OCR на протяжении десятилетий, — модель возвращает многослойное представление, в котором каждый блок локализован с помощью ограничивающей рамки, классифицирован по типу (заголовок, таблица, уравнение, подпись и другие) и оценен по степени достоверности как на уровне страницы, так и на уровне слова.

Компания Mistral заявляет, что наиболее востребованной функцией были ограничивающие рамки. Причина проста: без данных о местоположении нижестоящие системы не могут отследить извлеченный факт до его источника на конкретной странице. Этот пробел в отслеживаемости является постоянной проблемой для предприятий, создающих конвейеры генерации с дополненной информацией (RAG), рабочие процессы соответствия требованиям или любые приложения, где вопрос «откуда взялось это число?» требует проверяемого ответа.

Классификация блоков решает аналогичную проблему. Абзац, помеченный как «заголовок», может разделить документ на иерархические фрагменты для семантического поиска. Блок, помеченный как «таблица», может быть направлен в конвейер обработки структурированных данных, а не в текстовый сумматор. Блок, помеченный как «подпись», может запустить процесс редактирования в системе обеспечения соответствия требованиям.

Сами по себе эти идеи не являются новыми, но их представление в виде первоклассных результатов работы самой модели оптического распознавания текста — вместо необходимости отдельного этапа анализа макета — устраняет интеграционный слой, который корпоративным командам исторически приходилось создавать и поддерживать самостоятельно.

Показатели достоверности выполняют двойную функцию. В больших масштабах они позволяют организациям программно направлять области с низкой достоверностью на проверку специалистами и автоматически утверждать фрагменты с высокой достоверностью, создавая то, что в отрасли называют проверкой с участием человека, без необходимости проверки каждой страницы каждого документа. В производственных системах оптическое распознавание символов редко является конечной целью — это первый шаг в более масштабном процессе.

Разработчики, создающие системы распознавания текста, рабочие процессы агентов или системы автоматизации обработки документов, часто тратят больше времени на восстановление структуры и макета, чем на саму логику обработки данных с помощью ИИ. OCR 4 призван исключить этот этап восстановления, и если он выполнит это обещание, выгода будет заключаться не только в экономии средств на распознавании текста, но и в сокращении трудозатрат на разработку всего процесса обработки документов.

Независимые эксперты отдавали предпочтение продукции Mistral в 72% случаев, но сравнительные тесты рассказывают сложную историю.

Компания Mistral сообщает, что OCR 4 достигла среднего показателя успешности в 72% в сравнительном тестировании с ведущими конкурентами, проведенном независимыми аннотаторами на более чем 600 реальных документах на более чем 12 языках. Модель также показала лучший общий результат на OlmOCRBench — 85,20 баллов — и 93,07 балла на OmniDocBench.

Однако сама компания призывает к осторожности при интерпретации этих цифр. В своем пресс-релизе Mistral предприняла необычный шаг, проведя аудит и публично раскрыв конкретные типы обнаруженных артефактов оценки, включая ошибки в эталонных данных в аннотациях ссылок, несоответствия в эквивалентных обозначениях LaTeX, предположения о порядке чтения столбцов и проблемы с указанием авторства в заголовках и колонтитулах. «Поэтому мы рассматриваем совокупную оценку как направленную, а не окончательную», — заявила компания, что является примечательно прозрачной позицией для поставщика, анонсирующего продукт.

Такая прозрачность весьма своевременна. В публичной таблице лидеров OlmOCRBench некоторые исследователи отметили, что OCR 4 в настоящее время занимает третье место, уступая открытым моделям, таким как Chandra OCR 2. А некоторые модели с открытыми весами сами сообщают о более высоких суммарных баллах OmniDocBench — PaddleOCR-VL-1.6 заявляет о 96,33, — хотя эти результаты не были независимо воспроизведены в публичной таблице лидеров.

Тем не менее, первые отзывы предприятий были положительными. Эйдан Донохью, инженер по искусственному интеллекту в финансовой компании Rogo, заявил, что компания сравнила OCR 4 с ведущими агентными парсерами документов на наборе данных финансовых вопросов и ответов с большим количеством диаграмм и «достигла эквивалентной точности при примерно в 8 раз меньших затратах и в 17 раз меньшей задержке». Иван Михайлов, инженер по искусственному интеллекту в компании Anaqua, занимающейся управлением интеллектуальной собственностью, сказал, что OCR 4 «примерно в 4 раза быстрее на страницу, чем наш существующий поставщик».

Однако корпоративным покупателям следует проводить собственные оценки, а не полагаться на сравнительные показатели какого-либо поставщика. Практический вопрос заключается не в том, какая модель занимает первое место в рейтинге, а в том, какая модель выдает наименьшее количество ошибок в ваших конкретных документах, на ваших конкретных языках, по цене и с задержкой, которые соответствуют вашему рабочему процессу.

Запрет на экспорт антропогенных материалов стал необходимым подтверждением приверженности компании Mistral и ее стремлению к суверенитету.

Выход Mistral на рынок происходит в геополитическом контексте, который вряд ли может быть более благоприятным для его стратегического положения.

12 июня компания Anthropic была вынуждена отключить доступ к своим новейшим моделям искусственного интеллекта, Fable 5 и Mythos 5, после того, как Министерство торговли США, используя контроль за экспортом в целях национальной безопасности, запретило компании распространять эти модели среди иностранных граждан. Корпоративные клиенты в финансовой, медицинской, SaaS-индустрии и сфере критической инфраструктуры обнаружили, что их основные интеллектуальные сервисы внезапно отключены без предварительного предупреждения и эффективных мер реагирования. По состоянию на 24 июня обе модели остаются недоступными, и рынки прогнозов оценивают вероятность их восстановления до 1 июля всего в 57%.

Этот эпизод подтвердил предупреждение, которое генеральный директор Mistral Артур Менш высказывал уже более года. Как сообщало Business Insider, в июне 2025 года на Лондонской неделе технологий Менш предупредил о том, что американские компании, занимающиеся ИИ, «обладают ключами» к их моделям, назвав это сценарием, при котором европейские компании «предоставляют рычаги влияния своим поставщикам». Он добавил: «В какой-то момент вам нужно иметь возможность включать или выключать это, и вы не хотите оставлять это на откуп другой стране».

Дискуссия приобрела дополнительную остроту по мере того, как в последние месяцы усилилась риторика Менша о суверенитете. Как сообщало CNBC в конце мая, Менш заявил изданию: «Европа отстает в развитии инфраструктуры, поэтому мы инвестируем средства, чтобы сократить этот разрыв».

В то же время Менш выступил против призыва Папы Льва XIV к «разоружению» ИИ, утверждая, что Европа не может позволить себе отстать от американских технологических гигантов. «Мы все за мир, но если вы посмотрите на наших соперников и противников в мире, они используют искусственный интеллект… нам действительно нужны собственные возможности», — сказал Менш журналистам.

Модель развертывания OCR 4 в одном контейнере с самостоятельным размещением является воплощением этого аргумента на уровне продукта. Поставщик со штаб-квартирой в США, предлагающий размещение данных в ЕС, означает, что документы хранятся во Франкфурте, но регулируются законодательством США. Компания Mistral, зарегистрированная во Франции и работающая под юрисдикцией ЕС, предлагающая развертывание в контейнерах на собственных серверах, означает, что документы вообще не покидают инфраструктуру клиента. Положения Закона ЕС об искусственном интеллекте, касающиеся штрафных санкций, вступают в силу 2 августа, усиливая регуляторное давление на европейские предприятия, оценивающие поставщиков решений для обработки документов с помощью ИИ.

Бесплатная модель распознавания текста от Baidu с открытыми весами появилась на день раньше — и разница весьма показательна.

Выпуск Mistral не был изолированным событием. Всего за день до запуска OCR 4, 22 июня Baidu выпустила Unlimited-OCR — модель с 3 миллиардами параметров, распространяемую по лицензии MIT, которая решает одну из самых насущных проблем в области искусственного интеллекта для обработки документов: анализ целых PDF-файлов и многостраничных сканированных документов за один проход, без разбиения входных данных на части или последующего объединения выходных данных.

Модель Baidu использует технику, называемую «Внимание с помощью скользящего окна с опорой на ссылку» (R-SWA), которая, как объяснил один из ведущих комментаторов Hacker News, разделяет фокус ИИ на два направления: поддержание полного внимания к исходному изображению документа, одновременно ограничивая память сгенерированного текста узким, движущимся окном. В результате достигается постоянный размер кэша ключ-значение и возможность транскрибировать более 40 страниц за один проход. Модель собрала 1800 звезд на GitHub за первые 24 часа и получила более 479 голосов на Hacker News, где обсуждение набрало 109 комментариев.

Эти два релиза определяют то, что некоторые аналитики называют разделением между документами и ИИ в июне 2026 года: самостоятельный долгосрочный анализ с использованием открытых весов против структурированного управляемого извлечения с использованием корпоративных функций.

Модель Baidu распространяется бесплатно под лицензией MIT, работает на стандартном оборудовании GPU и не имеет управляемого API или корпоративного соглашения об уровне обслуживания (SLA). Модель Mistral — это коммерческий продукт с оплатой за страницу, ограничивающими рамками, оценками достоверности, классификацией блоков, многоплатформенным распространением и возможностью самостоятельного развертывания для корпоративных клиентов.

Unlimited-OCR может быть лучшим инструментом для исследовательской группы, оцифровывающей отсканированные диссертации на одном графическом процессоре. OCR 4 разработан для процесса закупок ИТ-оборудования — мира соглашений об уровне обслуживания (SLA), договоров на обработку данных и аудитов соответствия.

Помимо Baidu, в более широком сегменте конкурентов в области оптического распознавания текста участвуют Google Document AI, Amazon Textract, Azure Document Intelligence, ABBYY Vantage, а также растущее число моделей с открытыми весами.

В ветке обсуждений Unlimited-OCR на Hacker News специалисты дали откровенную оценку текущему состоянию дел. Joss82, который занимается анализом документов уже 10 лет, прямо написал: «OCR по-прежнему ужасен в 2026 году». Между тем, пользователь SyneRyder сообщил об успешном использовании Claude для распознавания текста на сотнях страниц рукописных документов, отметив, что модель выдала результаты «без необходимости внесения исправлений» и даже указала на ошибку в непрерывности исходного текста. Эти отчеты специалистов подчеркивают ключевое противоречие на рынке: производительность сильно варьируется в зависимости от конкретного типа документа, языка и качества исходного материала.

Реальная суть заключается не в распознавании текста (OCR), а в корпоративном стеке искусственного интеллекта, где интеллектуальное управление документами служит лишь отправной точкой.

Если посмотреть на ситуацию в целом, то релиз Mistral OCR 4 — это не совсем история об OCR. Это история выхода на рынок корпоративного сегмента, построенная на основе глобального рынка интеллектуальной обработки документов объемом 4,4 миллиарда долларов, который, по прогнозам Grand View Research, будет расти со среднегодовым темпом роста в 33,1% до 2030 года.

Для Mistral технология оптического распознавания символов (OCR) — это инструмент, позволяющий инвестировать в корпоративные бюджеты на ИИ. Модель напрямую интегрируется в Mistral Search Toolkit, открытую платформу для компонуемого поиска, анонсированную на саммите AI Now. В этой архитектуре OCR 4 служит слоем обработки данных для генерации поисковых запросов и корпоративных поисковых конвейеров, преобразуя необработанные документы в готовые к цитированию, структурно классифицированные входные данные. Логика ясна: как только предприятие внедряет OCR 4 для извлечения документов, более широкий набор моделей Mistral — включая Medium 3.5 для логического вывода и агентную платформу Vibe для выполнения задач — становится естественным следующим шагом в этой системе.

Амбициозные планы по привлечению инвестиций являются критически важным контекстом для понимания текущей траектории привлечения средств компанией Mistral. Bloomberg недавно сообщил, что компания находится на ранней стадии переговоров о привлечении около 3 миллиардов евро (3,5 миллиарда долларов) при оценке примерно в 20 миллиардов евро — почти вдвое больше, чем оценка в 11,7 миллиарда евро в рамках сентябрьского раунда финансирования серии C. На сегодняшний день Mistral привлекла всего около 4 миллиардов долларов, что составляет лишь небольшую часть от суммы, привлеченной ее крупнейшими американскими конкурентами. OCR 4 и связанный с ним план по получению дохода от корпоративных клиентов являются частью стратегии компании по обоснованию этой более высокой оценки, при этом, по данным Le Monde, Mistral планирует достичь выручки в 1 миллиард евро в 2026 году по сравнению с 200 миллионами евро в 2025 году.

Компания Mistral насчитывает около 1000 сотрудников и стремится конкурировать с лабораториями, которые привлекли в 40 раз больше капитала. Она не сможет выиграть гонку вооружений в области универсальных моделей против OpenAI и Anthropic. Однако она может создать дифференцированную корпоративную платформу, основанную на принципах суверенитета, структурированного анализа документов и агентных рабочих процессах, и использовать эту платформу для привлечения бюджетов европейских предприятий, которые все больше опасаются зависимости от американских поставщиков.

Структура ценообразования подкрепляет эту стратегию: при цене 2 доллара за 1000 страниц в пакетном режиме стоимость обработки корпоративного архива объемом 100 000 страниц снижается до 200 долларов, что делает крупномасштабные проекты оцифровки экономически целесообразными, чего они, возможно, не смогли бы достичь при использовании модели ценообразования на основе токенов и визуального языка.

Сможет ли Mistral реализовать это видение в масштабах, противостоя Google, Amazon, Microsoft и стремительно развивающейся экосистеме открытого исходного кода, — остается открытым вопросом. Но кризис с экспортным контролем Anthropic до сих пор не разрешен, европейские правила суверенитета данных ужесточаются, и на горизонте маячит потенциальный раунд финансирования в размере 20 миллиардов евро. Компания проведет вебинар по внедрению OCR 4 7 июля в 18:00 по центральноевропейскому времени.

Две недели назад аргумент в пользу создания инфраструктуры ИИ вне досягаемости американского экспортного контроля был лишь теоретическим. Затем правительство США резко изменило ситуацию, и самые передовые модели Anthropic стали недоступны для всех неамериканцев на планете. Компания Mistral не была причиной этого кризиса, но она потратила последний год на разработку продукта, благодаря которому он стал актуальным.

Transform: Посмотрите, кто участвует в CTA

Подпишитесь, чтобы получать самые свежие новости!

Подробные аналитические данные для руководителей предприятий в области искусственного интеллекта, данных и безопасности.

VB Daily AI Weekly AGI Weekly Еженедельник по безопасности Еженедельник по инфраструктуре данных Мероприятия VB Все они

Отправляя свой адрес электронной почты, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности.

Получайте обновления ! Вы подписаны! Наши последние новости скоро поступят на вашу электронную почту.

Источник: venturebeat.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

OCR 4 рассматривает каждый документ как семантическую карту, а не как сплошной текст.

Независимые эксперты отдавали предпочтение продукции Mistral в 72% случаев, но сравнительные тесты рассказывают сложную историю.

Запрет на экспорт антропогенных материалов стал необходимым подтверждением приверженности компании Mistral и ее стремлению к суверенитету.

Бесплатная модель распознавания текста от Baidu с открытыми весами появилась на день раньше — и разница весьма показательна.

Подпишитесь, чтобы получать самые свежие новости!

Похожие записи

Похожие записи

Инвесторы стекаются в суперанонимную криптовалюту, используемую для самых абсурдных вещей, которые только можно себе представить

Компания Apple заявляет, что исправила ужасную функцию поиска в электронных письмах и фотографиях.

Что делает ваш мозг, когда вы ничего не делаете

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email