所有人都在预测下一个Token，可能大家都错了！

当GPT猜下一个词、Sora猜下一帧、机器人模型猜下一个动作，整个AI行业都押注在'预测下一个'的范式上。但BAAI 57位作者联合署名的Orca论文提出：你们都搞错了方向——别猜Token，猜世界状态。这篇深度分析拆解了Orca的核心思想、婴儿式学习范式、零动作标签学会机器人行动的惊人发现，以及它对万亿级AI基础设施投资逻辑的潜在颠覆。

整个AI行业都在玩同一个游戏，只是没意识到它叫"猜"。

GPT猜下一个词，Sora猜下一帧，机器人模型猜下一个动作。OpenAI、Google、Meta、NVIDIA——全球最聪明的头脑、数千亿美元的资金，全部押注在同一个范式上：预测下一个。这个范式诞生了ChatGPT，催生了Sora，驱动了Figure 01和Optimus。它无比成功，成功到几乎没有人停下来问一句：这真的是"理解"吗？

一篇57位作者署名、来自北京智源人工智能研究院（BAAI）的论文站出来说：不是。你们全搞错了方向。

这篇论文叫Orca，副标题"The World is in Your Mind"，2026年6月25日发布于项目主页，29日提交至arXiv。它没有在"预测下一个"的赛道上继续卷参数，而是从根本上换了一个问题：如果模型不是在猜下一个字，而是在理解世界的"状态"呢？

三个"猜"的困局

2026年，AI行业对"预测下一个"的信仰似乎达到了顶峰。

GPT-5和DeepSeek-V4把"下一个Token预测"做到了极致——它们能写诗、写代码、做数学证明，甚至能在某些专业考试中超过人类。Sora虽然已于2026年3月被OpenAI正式关停（据CNN与TechCrunch报道，这款AI视频应用因版权争议和不实信息风险被迫退场），但Google的Veo 3、中国的Seedance等视频模型在"预测下一帧"上展开了新的竞赛。机器人领域，Figure 01学会了叠衣服，Optimus在工厂里搬运零件，它们的核心逻辑都是"观察当前状态，预测下一个动作"。

三个领域，一个范式。表面上看，AI正在全方位逼近人类智能。

但Orca论文尖锐地指出：这三者做的其实是同一件"假"事。

GPT预测下一个词，本质上是统计模仿。你给它"今天天气"，它输出"真好"，不是因为它理解天气，而是因为它见过太多次这个组合。Sora预测下一帧，本质上是像素插值。视频模型看起来在"想象"未来，其实只是在做图像的平滑过渡。机器人预测下一个动作，本质上是模式匹配。机器人看到杯子输出"抓取"，不是因为它理解"抓"这个动作的物理含义，而是因为它在训练数据里见过太多次类似场景。

换句话说，整个AI行业引以为傲的能力，在Orca的作者看来，只是"统计匹配"的豪华升级版。

Orca论文原话："智能不应该仅仅是能做Next-Token-Prediction的模型、能生成高质量视频的Next-Frame-Prediction模型，或者能生成高质量动作的Next-Action-Prediction模型。它应该被定义为构建世界状态并支持多样化下游任务的能力。"

125,000小时视频。1.6亿次事件标注。1,150万VQA问答样本。这是Orca的训练规模。但真正让这篇论文区别于其他"更大模型、更多数据"故事的，是它的核心判断：用"预测下一状态"替代"预测下一个Token"。

什么叫"预测下一状态"

Orca不是拒绝"预测"，它拒绝的是"预测什么"。

目前所有主流AI模型都在预测同一个东西：输出界面的下一个单元——下一个Token、下一帧像素、下一个动作指令。Orca说：别猜表面，猜本质。

论文给出了一个清晰的数学框架。世界的状态S随时间演化，变化受两部分因素驱动：隐式动力学z——物理规律、对象属性、场景动态、环境力场——以及显式条件c——人类指令、事件描述、任务目标。Δ大于0时预测未来状态，Δ小于0时回溯过去状态。

用白话翻译：一个球在空中，状态包含它的位置、速度、重力影响、空气阻力。不是"球在画面中间"这个像素信息，而是"这个球正在以9.8m/s²的加速度下落"这个物理事实。

这就是"状态"和"Token"的本质区别。Token是表面的，状态是本质的。Token是统计的，状态是物理的。

换个更形象的比喻：GPT就像一个考生，没见过物理课本，但刷了100万套物理选择题，凭选项出现的概率蒙对了90%。Orca则像另一个考生，没刷过题，但真正读懂了牛顿三定律，即使题目换了表述方式他也能做对。

前者记住的是"这个位置通常选C"。后者理解的是"力等于质量乘以加速度"。

婴儿式学习：无意识加有意识

Orca提出了一个非常有趣的学习框架：无意识学习加有意识学习。这个二分法直接致敬了人类认知发展的路径。

无意识学习，指的是直接从连续视频中学习。像婴儿一样，不需要有人告诉你"球在下落"，你看多了就自然懂了物理规律。Orca从125,000小时视频中捕获密集的物理状态转换——每一帧之间的变化，每一个物体的运动轨迹，每一次碰撞的因果关系。这个过程不使用任何标注标签，靠的是自监督信号。

有意识学习，则用语言描述的事件和视觉问答来组织因果结构。比如"球落地了"、"门被打开了"、"猫从桌上跳下来了"。这些是有意义的语义事件。不是连续的像素变化，而是离散的、有因果关系的状态转换。它回答的是：发生了什么？为什么发生？如果换一种干预会怎样？

Orca项目主页引用："婴儿在学会语言之前，就已经通过观察世界理解了物理规律——物体如何运动、接触如何发生、被遮挡的物体是否仍然存在、场景在动作之后如何变化。"

无意识学习提供密集的世界经验，有意识学习将这些经验转化为可以被推理和交流的因果模式。二者缺一不可。

这个设计背后有一个野心：Orca不是在做一个"更好的视频模型"或"更好的语言模型"，它试图构建一个通用世界基础模型（general world foundation model）。一个能同时处理语言、视觉和行动的共享世界表征。这远远超出了大多数"世界模型"论文的宣称范围。

最惊人的发现：没学动作，却学会了行动

Orca论文中最令人震惊的结果不在文本生成，也不在图像预测，而在机器人任务。

预训练阶段，Orca没有使用任何动作标签。完全零动作监督。它只是看视频。125,000小时的视频，理解世界在如何运转。然后当它被接入轻量级的动作解码器，在真实机器人任务上测试时，结果令人侧目。

AI Weekly的报道给出了具体数据。在真实机器人分布外（OOD）测试中，Orca-4B达到了36.6%的成功率，而同等规模的专业机器人基线模型π₀.5只有27.6%。差距接近10个百分点。在没有使用任何动作标签预训练的前提下，这个结果几乎违反了机器人学习的直觉。

不仅如此，在多任务视频基准测试中，Orca-4B在MVBench、TemporalBench、3DSRBench和SWITCH四个基准上的平均得分为51.8，而同等规模的Qwen3.5-4B只有46.7。

这意味着什么？

传统机器人学习需要大量的"动作标签"——告诉机器人"在这个状态下，应该执行这个动作"。这是一个极其昂贵的标注过程。机器人公司往往需要雇佣数十名标注员，花几个月时间给每一帧视频打上动作标签。

但Orca证明：理解物理世界本身就隐含了行动能力。你不需要教机器人"抓杯子"，你只需要让它看100万次杯子被抓住的视频。当它真正理解了"抓"这个动作的物理含义——手的形状、力的方向、物体的重量、接触面的摩擦——它自然就知道怎么抓了。

这可能是当前AI领域最重要的未被充分讨论的发现：世界理解本身就是一种隐式策略。

GPT是模仿，Orca是理解？

这个问题可能是整个AI行业最本质的争论：大语言模型到底是在"理解"还是在"模仿"？

支持"理解"的一方会说：如果GPT能通过律师资格考试、能写出优美的诗歌、能解决复杂的数学问题，你说它只是在"模仿"？那人类的学习不也是基于经验的模式匹配吗？

支持"模仿"的一方会说：GPT本质上是一个巨大的"完形填空"机器。它没有身体，没有物理体验，没有对世界的真实感知。它怎么可能"理解"？

Orca的答案是：你们争论的焦点错了。关键不在于能不能理解，而在于理解了什么。

GPT理解的是文本分布——"今天天气"后面跟"真好"的概率分布。Sora理解的是像素分布——"一个球在运动"的像素时序模式。机器人模型理解的是动作分布——"看到杯子"之后该"抓取"的动作序列。

这三个理解有一个共同缺陷：它们理解的是"表面"，不是"本质"。

Orca试图理解的是世界状态的分布——物理实体在时间和空间中如何演化，因果关系如何起作用，干预如何改变结果。当Orca看到一个全新的场景——比如一个球在太空中漂浮——它能推理出"这里没有重力，所以球不会下落"。GPT做不到这一点，因为它的训练数据里没有足够的"在太空中的球"的文本。Sora也做不到，因为它的像素分布从来没有学习过"重力"这个抽象概念。

这就是Orca暗示的从"统计模仿"到"物理理解"的临界点。

一个有趣的旁证：BAAI此前的论文Emu3已经在Nature上发表，证明了"下一个Token预测"范式可以统一视觉和语言。Orca相当于在Emu3的方向上又往前迈了一大步——不是用"下一个Token"统一所有模态，而是用"下一个状态"替代"下一个Token"本身。

万亿美元的问题：谁对谁错

Orca的论文不是一篇完美的论文。AI Weekly的报道直言不讳地指出了几个关键问题。

第一，论文摘要说Orca"超越了同等规模的专业基线"，但未说明具体基准是什么、超出多少。所有数字来自论文自身的报告，缺乏第三方独立验证。

第二，代码、权重和数据集的发布计划没有提及。57位作者来自哪些机构、125,000小时视频语料库是如何构建的、是否有数据版权问题——这些关键信息都尚未公开。

第三，Orca的核心宣称——"一个冻结的骨干网络可以同时服务于文本生成、图像预测和机器人动作"——听起来很美，但能否在第三方复现中成立，才是真正的考验。用AI Weekly的话说，这是"在接下来的几个月里靠第三方复现来决定成败的东西"。

但Orca的价值不在于它是否完美。它的价值在于提出了一个可能改变AI行业走向的问题。

如果"预测下一状态"真的比"预测下一个Token"更接近"理解"的本质，那么今天整个AI行业的算力基础设施投资逻辑需要被重新审视。

OpenAI、Google、Meta这些押注"更大模型、更多Token、更多算力"的巨头，如果Orca的范式被证明是正确的，它们万亿美元级别的算力投资可能走错了方向。因为"下一状态预测"不需要无穷大的参数。它需要的是对物理世界的高效建模，而不是对文本统计分布的极致逼近。

DeepSeek、Qwen等聚焦于语言模型的中国玩家，如果Orca的方向被验证，它们可能需要重新思考"语言模型"的边界。语言只是世界状态的一种读出口，而不是世界的全部。

对于机器人公司来说，Orca意味着一个更激进的未来：也许不需要再花几千万美元标注动作数据了。让机器人"看电视"就行。

不只是Orca的事

Orca不是孤例。Vedant等学者关于"多Token预测"的研究表明，同时预测多个后续Token能强迫模型学到更高层的结构。Google DeepMind一直在探索"世界模型"用于规划和控制。NVIDIA的Cosmos平台试图构建物理世界的基础模型。OpenAI的Sora虽然失败了，但它最初的目标是"世界模拟器"而不是"视频工具"。

所有这些方向都在从不同的角度逼近同一个问题：预测下一个，真的够吗？

Orca给出的回答是：不够。但问题不在于"预测"这个训练方式，而在于"预测什么"这个范式选择。如果选对了预测目标——从"下一个Token"转向"下一个状态"——也许"预测"本身就是通往理解的路径。

这听起来有点反直觉。但想想人类自己：我们不也是一生都在"预测下一个"吗？看到一个人举起手，你预测他要打招呼。听到雷声，你预测要下雨。发现杯子在桌沿，你预测它会掉下来。区别在于，人类预测的不是"下一个词"，而是"世界的下一状态"。这个预测能力来自几十年对物理世界的密集观察。

Orca把同一件事教给了机器。

所有AI都在猜下一个是什么。但Orca说：别猜答案，猜世界。