从认字到理解:Mistral OCR 4重划赛道

2026.06.24 09:18
2026年6月23日,Mistral AI发布OCR 4,以$4/1000页的价格、170种语言覆盖和72%盲测胜率杀入OCR赛道。不同于传统OCR,它以边界框、块分类和置信度评分实现结构化输出,与百度刚开源的Unlimited OCR(长程连续解析)形成两条路线对撞。本文分析两条技术路线的差异、各自变现逻辑,以及OCR从"认字工具"进化为"文档理解引擎"的范式转变。

2026年6月23日,Mistral AI 发布 OCR 4。$4/1000页。170种语言。72%盲测胜率。每个词都带边界框、带分类标签、带置信度评分。

就在几天前,百度刚刚开源 Unlimited OCR,用一套叫 R-SWA 的注意力机制,实现了单次推理处理几十页文档。

过去几个月,OCR 这个存在了半个多世纪的技术赛道,被几家公司以完全不同的方式同时重写。是巧合,还是某种更深的信号?

两条路线,同时抵达

先看 Mistral OCR 4 交出的答卷。

它不是传统意义上的"文字识别工具"。Mistral OCR 4 为每个识别结果生成精确边界框——告诉开发者这段文字在页面的哪个位置。它对每个文本块自动分类:是标题、正文、表格、页眉页脚,还是签名、公式。它为每个识别结果附带一个置信度分数——"这个字我80%确定,那个字我99%确定"。

170种语言。单容器部署,支持完全私有化。价格:$4/1000页,Batch API 折扣后低至$2/1000页。OCR 4 已经上线 Azure Microsoft Foundry 平台,为企业级部署提供渠道。

在独立盲测中,人工标注员对 OCR 4 的偏好率达72%,在所有测试的 OCR 和文档 AI 系统中排名第一。在 OlmOCRBench 基准上以85.20分登顶,在 OmniDocBench 上取得93.07分。

再看百度 Unlimited OCR 交出的答卷。

它不逐页处理。一次前向推理,几十页文档直接转录完。核心创新是 R-SWA(参考滑动窗口注意力)——让 KV Cache 始终保持恒定大小,不随文档长度增长。在 OmniDocBench v1.6 上取得93.92%的综合得分,刷新 SOTA。

关键区别:百度开源了。模型权重和代码都在 GitHub 上。

三份开源,一份闭源:过去半年 OCR 赛道发生了什么

把时间拉回到2026年,会发现 OCR 赛道已经完成了一次"突然加速"。

1月27日,DeepSeek 发布 OCR 2,3B 参数,引入 DeepEncoder V2 视觉编码器和 Visual Causal Flow 机制,在 OmniDocBench v1.5 上拿到91.09%。这是第一枪。

2月3日,智谱发布并开源 GLM-OCR,0.9B 参数,在 OmniDocBench v1.5 上以94.6分刷新 SOTA。0.9B 打 235B 的 Qwen3-VL,在 OCR 问题上赢了——这件事本身就是一个信号。

6月20–22日前后,百度开源 Unlimited OCR,3B 参数但仅激活 570M,R-SWA 机制让 KV Cache 恒定,单次推理处理30–40页文档,在 OmniDocBench v1.6 上冲到93.92%。

6月23日,Mistral 发布 OCR 4。

半年,四个重磅玩家。三份开源竞相出招,一份闭商用结构化输出构筑护城河。这不是渐进式迭代,而是一次范式级别的加速。

Mistral 的思路:输出即理解

Mistral OCR 4 的核心策略可以概括为:输出即理解。

传统 OCR 的输出是一堆文本。开发者拿到文本后,还要自己做版面分析、段落分割、字段提取——而这些工作恰好在 OCR 模型"看懂"页面时已经完成了,只是没有输出给下游。

Mistral 的选择是:模型在内部做了版面理解,那就把这些理解全部暴露出来。

边界框解决的是"字在哪里"。块分类解决的是"它是什么类型的元素"。置信度评分解决的是"这个字我有多确定"。三样东西加在一起,下游开发者拿到的就不再是一堆字,而是一个带有完整元数据的文档对象。

这对企业级应用来说特别重要。想象一下 RAG 场景。当你把几千份 PDF 喂给 RAG pipeline 时,传统做法是:OCR 识别文字 → 版面分析器做区块分割 → 文本分块 → 向量化。每一个环节都有信息损耗。Mistral OCR 4 能压缩中间环节——OCR 直接输出结构化区块,版面分析这个中间层可以省掉。

Mistral 在官方博客里说,OCR 4 是"ingestion component for enterprise search, RAG, and domain-specific retrieval pipelines"——企业搜索和 RAG 管道的输入组件。这句话的潜台词很清楚:Mistral 不只想做 OCR,它想控制企业数据进入 AI 系统的那扇门。

百度的思路:把"记忆"写进注意力机制

百度 Unlimited OCR 选择了另一条路:读取即理解。

它的核心问题意识是:为什么 OCR 不能像人一样"一次读完一整本书"?

现有 OCR 系统的标准做法是逐页处理。处理第一页 → 清空 KV Cache → 处理第二页 → 再清空 → 拼接结果。这本质上是一个 for-loop。问题是,这个 for-loop 不只是工程上的权宜之计——它意味着模型每翻一页就要"遗忘"前一页的内容,永远无法建立跨页的上下文理解。

Unlimited OCR 的 R-SWA 机制直接挑战这个范式。它的灵感来自人类抄书的注意力模式:你只会关注原文、刚写的几个字、下一个要写的字,较早的内容自然淡出。

技术上,R-SWA 做了三件事:

  • 第一,视觉 Token 不参与窗口滑动——始终在注意力范围内。无论解码多长,模型永远不会"忘记"原始页面内容。
  • 第二,输出端只维护128个历史 Token——KV Cache 变成一个固定大小的队列,新 Token 进来,最旧的出去。
  • 第三,32K 的上下文窗口配合高压缩率编码器,让一次推理能处理30–40页文档,而 KV Cache 不会膨胀。

结果是什么?在生成6000个 Token 时,Unlimited OCR 的 TPS 达到7847,而 DeepSeek OCR 是5822——快了35%。延迟几乎不随文档长度增长。

值得一提的是,Unlimited OCR 直接使用 DeepSeek OCR 的 DeepEncoder 作为视觉编码器。那位据传来自 DeepSeek 的核心作者,在 GitHub 致谢里把 DeepSeek OCR 和 OCR 2 列在前两位。开源社区的技术人员流动,在关键时刻总能碰撞出意想不到的化学反应。

同一个方向,不同的变现路径

两条路线看似方向相反,其实指向同一个终点。

Mistral OCR 4 走的是精细化路线——每一页理解得越深越细越好。百度 Unlimited OCR 走的是规模化路线——一次处理的页数越多越好。

但两者共同回答了同一个问题:OCR 到底是什么?不是"识字工具",而是"文档理解引擎"。

这直接决定了各自的变现逻辑。

Mistral 选择闭源商业。OCR 4 本身就是 API 产品,但更重要的是为更高层的 Document AI 产品线导入客户。$4/1000页的价格不是用来赚钱的,是用来铺量的——把 OCR 做成"水电煤"级别的底层基础设施,锁住企业客户,然后向上卖更贵的文档理解服务。

百度选择开源。Unlimited OCR 全部公开,模型权重、代码、论文一键可得。对百度来说,OCR 本身不是终点,数据入口才是——让更多人用 Unlimited OCR 处理文档,更多企业把文档数据从 PDF 变成 Token,这些 Token 最终会变成 AI 模型的训练数据,而百度站在数据循环的中心。

竞品对标:谁在被淘汰

把 Mistral OCR 4 和百度 Unlimited OCR 放在竞品坐标中看,轮廓更清晰。

ABBYY FineReader 还在做最好的桌面端 OCR——但它只能识别文字,不能理解文档。它的市场份额正被 AI-native 方案快速蚕食。

Google Cloud Vision API 支持多种语言和版面分析,但在结构化输出的精细度上不如 Mistral OCR 4。

Tesseract 开源已久,但缺乏现代视觉语言模型带来的版面理解能力。

DeepSeek OCR 2 是开源领域的标杆,但面对 Unlimited OCR 的 R-SWA 长程优势,在长文档场景下速度已落后35%。

GLM-OCR 以0.9B参数在 OmniDocBench 上登顶,证明"小而精"路线在 OCR 领域完全可行。

这意味着什么?

OCR 正在从"认字工具"进化为"文档理解引擎"。这不是渐进式变化,而是范式转换。

过去,OCR 的输出是纯文本。你得到了一堆字,版面信息全丢。下游开发者还要自建版面分析 pipeline——页面分割、区块分类、阅读顺序重建。

现在,Mistral OCR 4 的输出是带位置、带类型、带置信度的结构化数据。百度 Unlimited OCR 的输出是连续完整的文档内容流,一次性搞定几十页。

对开发者来说,下游任务不再需要自己做版面分析。OCR 直接给你答案。

对行业来说,这意味着"文档数字化"的门槛被拉到了一个新高度。不只是文字被识别,而是文档被理解。不只是像素变成文本,而是像素变成可直接输入 AI 系统的结构化数据。

短期来看,不会有一家通吃。Mistral 在企业级 RAG 和文档智能领域有结构性优势——结构化输出天生适合信息检索和知识图谱构建,加上 Azure 渠道,企业触达能力不可小觑。百度在中文长文档处理和数据入口争夺上占优——开源免费加中文生态是强劲的组合拳。

长期来看,两条路线会融合。未来的 OCR 系统既要支持"一次读完一本书",也要输出"逐词级别的结构化信息"。R-SWA 和边界框分类不是互斥的——"一次读完"和"精细标注"恰好满足文档理解的两个维度:广度与精度。

拼图还缺一块:目前还没有一个模型既支持长程上下文、又输出结构化元数据。谁能先合二为一,谁就在 OCR 赛道上建立了真正的护城河。

OCR 的战场变了:不再是"谁认得更准",而是"谁理解得更深"。从像素到 Token 这条路一旦走通,打开的将不只是文档数字化的效率——而是整个企业数据进入 AI 世界的入口。

作品声明:内容由AI生成

快报

更多