从认字到理解:Mistral OCR 4重划赛道

2026年6月23日，Mistral AI发布OCR 4，以$4/1000页的价格、170种语言覆盖和72%盲测胜率杀入OCR赛道。不同于传统OCR，它以边界框、块分类和置信度评分实现结构化输出，与百度刚开源的Unlimited OCR（长程连续解析）形成两条路线对撞。本文分析两条技术路线的差异、各自变现逻辑，以及OCR从"认字工具"进化为"文档理解引擎"的范式转变。

2026年6月23日，Mistral AI 发布 OCR 4。$4/1000页。170种语言。72%盲测胜率。每个词都带边界框、带分类标签、带置信度评分。

就在几天前，百度刚刚开源 Unlimited OCR，用一套叫 R-SWA 的注意力机制，实现了单次推理处理几十页文档。

过去几个月，OCR 这个存在了半个多世纪的技术赛道，被几家公司以完全不同的方式同时重写。是巧合，还是某种更深的信号？

两条路线，同时抵达

先看 Mistral OCR 4 交出的答卷。

它不是传统意义上的"文字识别工具"。Mistral OCR 4 为每个识别结果生成精确边界框——告诉开发者这段文字在页面的哪个位置。它对每个文本块自动分类：是标题、正文、表格、页眉页脚，还是签名、公式。它为每个识别结果附带一个置信度分数——"这个字我80%确定，那个字我99%确定"。

170种语言。单容器部署，支持完全私有化。价格：$4/1000页，Batch API 折扣后低至$2/1000页。OCR 4 已经上线 Azure Microsoft Foundry 平台，为企业级部署提供渠道。

在独立盲测中，人工标注员对 OCR 4 的偏好率达72%，在所有测试的 OCR 和文档 AI 系统中排名第一。在 OlmOCRBench 基准上以85.20分登顶，在 OmniDocBench 上取得93.07分。

再看百度 Unlimited OCR 交出的答卷。

它不逐页处理。一次前向推理，几十页文档直接转录完。核心创新是 R-SWA（参考滑动窗口注意力）——让 KV Cache 始终保持恒定大小，不随文档长度增长。在 OmniDocBench v1.6 上取得93.92%的综合得分，刷新 SOTA。

关键区别：百度开源了。模型权重和代码都在 GitHub 上。

三份开源，一份闭源：过去半年 OCR 赛道发生了什么

把时间拉回到2026年，会发现 OCR 赛道已经完成了一次"突然加速"。

1月27日，DeepSeek 发布 OCR 2，3B 参数，引入 DeepEncoder V2 视觉编码器和 Visual Causal Flow 机制，在 OmniDocBench v1.5 上拿到91.09%。这是第一枪。

2月3日，智谱发布并开源 GLM-OCR，0.9B 参数，在 OmniDocBench v1.5 上以94.6分刷新 SOTA。0.9B 打 235B 的 Qwen3-VL，在 OCR 问题上赢了——这件事本身就是一个信号。

6月20–22日前后，百度开源 Unlimited OCR，3B 参数但仅激活 570M，R-SWA 机制让 KV Cache 恒定，单次推理处理30–40页文档，在 OmniDocBench v1.6 上冲到93.92%。

6月23日，Mistral 发布 OCR 4。

半年，四个重磅玩家。三份开源竞相出招，一份闭商用结构化输出构筑护城河。这不是渐进式迭代，而是一次范式级别的加速。

Mistral 的思路：输出即理解

Mistral OCR 4 的核心策略可以概括为：输出即理解。

传统 OCR 的输出是一堆文本。开发者拿到文本后，还要自己做版面分析、段落分割、字段提取——而这些工作恰好在 OCR 模型"看懂"页面时已经完成了，只是没有输出给下游。

Mistral 的选择是：模型在内部做了版面理解，那就把这些理解全部暴露出来。

边界框解决的是"字在哪里"。块分类解决的是"它是什么类型的元素"。置信度评分解决的是"这个字我有多确定"。三样东西加在一起，下游开发者拿到的就不再是一堆字，而是一个带有完整元数据的文档对象。

这对企业级应用来说特别重要。想象一下 RAG 场景。当你把几千份 PDF 喂给 RAG pipeline 时，传统做法是：OCR 识别文字 → 版面分析器做区块分割 → 文本分块 → 向量化。每一个环节都有信息损耗。Mistral OCR 4 能压缩中间环节——OCR 直接输出结构化区块，版面分析这个中间层可以省掉。

Mistral 在官方博客里说，OCR 4 是"ingestion component for enterprise search, RAG, and domain-specific retrieval pipelines"——企业搜索和 RAG 管道的输入组件。这句话的潜台词很清楚：Mistral 不只想做 OCR，它想控制企业数据进入 AI 系统的那扇门。

百度的思路：把"记忆"写进注意力机制

百度 Unlimited OCR 选择了另一条路：读取即理解。

它的核心问题意识是：为什么 OCR 不能像人一样"一次读完一整本书"？

现有 OCR 系统的标准做法是逐页处理。处理第一页 → 清空 KV Cache → 处理第二页 → 再清空 → 拼接结果。这本质上是一个 for-loop。问题是，这个 for-loop 不只是工程上的权宜之计——它意味着模型每翻一页就要"遗忘"前一页的内容，永远无法建立跨页的上下文理解。

Unlimited OCR 的 R-SWA 机制直接挑战这个范式。它的灵感来自人类抄书的注意力模式：你只会关注原文、刚写的几个字、下一个要写的字，较早的内容自然淡出。

技术上，R-SWA 做了三件事：

第一，视觉 Token 不参与窗口滑动——始终在注意力范围内。无论解码多长，模型永远不会"忘记"原始页面内容。
第二，输出端只维护128个历史 Token——KV Cache 变成一个固定大小的队列，新 Token 进来，最旧的出去。
第三，32K 的上下文窗口配合高压缩率编码器，让一次推理能处理30–40页文档，而 KV Cache 不会膨胀。

结果是什么？在生成6000个 Token 时，Unlimited OCR 的 TPS 达到7847，而 DeepSeek OCR 是5822——快了35%。延迟几乎不随文档长度增长。

值得一提的是，Unlimited OCR 直接使用 DeepSeek OCR 的 DeepEncoder 作为视觉编码器。那位据传来自 DeepSeek 的核心作者，在 GitHub 致谢里把 DeepSeek OCR 和 OCR 2 列在前两位。开源社区的技术人员流动，在关键时刻总能碰撞出意想不到的化学反应。

同一个方向，不同的变现路径

两条路线看似方向相反，其实指向同一个终点。

Mistral OCR 4 走的是精细化路线——每一页理解得越深越细越好。百度 Unlimited OCR 走的是规模化路线——一次处理的页数越多越好。

但两者共同回答了同一个问题：OCR 到底是什么？不是"识字工具"，而是"文档理解引擎"。

这直接决定了各自的变现逻辑。

Mistral 选择闭源商业。OCR 4 本身就是 API 产品，但更重要的是为更高层的 Document AI 产品线导入客户。$4/1000页的价格不是用来赚钱的，是用来铺量的——把 OCR 做成"水电煤"级别的底层基础设施，锁住企业客户，然后向上卖更贵的文档理解服务。

百度选择开源。Unlimited OCR 全部公开，模型权重、代码、论文一键可得。对百度来说，OCR 本身不是终点，数据入口才是——让更多人用 Unlimited OCR 处理文档，更多企业把文档数据从 PDF 变成 Token，这些 Token 最终会变成 AI 模型的训练数据，而百度站在数据循环的中心。

竞品对标：谁在被淘汰

把 Mistral OCR 4 和百度 Unlimited OCR 放在竞品坐标中看，轮廓更清晰。

ABBYY FineReader 还在做最好的桌面端 OCR——但它只能识别文字，不能理解文档。它的市场份额正被 AI-native 方案快速蚕食。

Google Cloud Vision API 支持多种语言和版面分析，但在结构化输出的精细度上不如 Mistral OCR 4。

Tesseract 开源已久，但缺乏现代视觉语言模型带来的版面理解能力。

DeepSeek OCR 2 是开源领域的标杆，但面对 Unlimited OCR 的 R-SWA 长程优势，在长文档场景下速度已落后35%。

GLM-OCR 以0.9B参数在 OmniDocBench 上登顶，证明"小而精"路线在 OCR 领域完全可行。

这意味着什么？

OCR 正在从"认字工具"进化为"文档理解引擎"。这不是渐进式变化，而是范式转换。

过去，OCR 的输出是纯文本。你得到了一堆字，版面信息全丢。下游开发者还要自建版面分析 pipeline——页面分割、区块分类、阅读顺序重建。

现在，Mistral OCR 4 的输出是带位置、带类型、带置信度的结构化数据。百度 Unlimited OCR 的输出是连续完整的文档内容流，一次性搞定几十页。

对开发者来说，下游任务不再需要自己做版面分析。OCR 直接给你答案。

对行业来说，这意味着"文档数字化"的门槛被拉到了一个新高度。不只是文字被识别，而是文档被理解。不只是像素变成文本，而是像素变成可直接输入 AI 系统的结构化数据。

短期来看，不会有一家通吃。Mistral 在企业级 RAG 和文档智能领域有结构性优势——结构化输出天生适合信息检索和知识图谱构建，加上 Azure 渠道，企业触达能力不可小觑。百度在中文长文档处理和数据入口争夺上占优——开源免费加中文生态是强劲的组合拳。

长期来看，两条路线会融合。未来的 OCR 系统既要支持"一次读完一本书"，也要输出"逐词级别的结构化信息"。R-SWA 和边界框分类不是互斥的——"一次读完"和"精细标注"恰好满足文档理解的两个维度：广度与精度。

拼图还缺一块：目前还没有一个模型既支持长程上下文、又输出结构化元数据。谁能先合二为一，谁就在 OCR 赛道上建立了真正的护城河。

OCR 的战场变了：不再是"谁认得更准"，而是"谁理解得更深"。从像素到 Token 这条路一旦走通，打开的将不只是文档数字化的效率——而是整个企业数据进入 AI 世界的入口。