所有人都在预测下一个Token,可能大家都错了!

2026.07.03 13:22
当GPT猜下一个词、Sora猜下一帧、机器人模型猜下一个动作,整个AI行业都押注在'预测下一个'的范式上。但BAAI 57位作者联合署名的Orca论文提出:你们都搞错了方向——别猜Token,猜世界状态。这篇深度分析拆解了Orca的核心思想、婴儿式学习范式、零动作标签学会机器人行动的惊人发现,以及它对万亿级AI基础设施投资逻辑的潜在颠覆。

整个AI行业都在玩同一个游戏,只是没意识到它叫"猜"。

GPT猜下一个词,Sora猜下一帧,机器人模型猜下一个动作。OpenAI、Google、Meta、NVIDIA——全球最聪明的头脑、数千亿美元的资金,全部押注在同一个范式上:预测下一个。这个范式诞生了ChatGPT,催生了Sora,驱动了Figure 01和Optimus。它无比成功,成功到几乎没有人停下来问一句:这真的是"理解"吗?

一篇57位作者署名、来自北京智源人工智能研究院(BAAI)的论文站出来说:不是。你们全搞错了方向。

这篇论文叫Orca,副标题"The World is in Your Mind",2026年6月25日发布于项目主页,29日提交至arXiv。它没有在"预测下一个"的赛道上继续卷参数,而是从根本上换了一个问题:如果模型不是在猜下一个字,而是在理解世界的"状态"呢?

三个"猜"的困局

2026年,AI行业对"预测下一个"的信仰似乎达到了顶峰。

GPT-5和DeepSeek-V4把"下一个Token预测"做到了极致——它们能写诗、写代码、做数学证明,甚至能在某些专业考试中超过人类。Sora虽然已于2026年3月被OpenAI正式关停(据CNN与TechCrunch报道,这款AI视频应用因版权争议和不实信息风险被迫退场),但Google的Veo 3、中国的Seedance等视频模型在"预测下一帧"上展开了新的竞赛。机器人领域,Figure 01学会了叠衣服,Optimus在工厂里搬运零件,它们的核心逻辑都是"观察当前状态,预测下一个动作"。

三个领域,一个范式。表面上看,AI正在全方位逼近人类智能。

但Orca论文尖锐地指出:这三者做的其实是同一件"假"事。

GPT预测下一个词,本质上是统计模仿。你给它"今天天气",它输出"真好",不是因为它理解天气,而是因为它见过太多次这个组合。Sora预测下一帧,本质上是像素插值。视频模型看起来在"想象"未来,其实只是在做图像的平滑过渡。机器人预测下一个动作,本质上是模式匹配。机器人看到杯子输出"抓取",不是因为它理解"抓"这个动作的物理含义,而是因为它在训练数据里见过太多次类似场景。

换句话说,整个AI行业引以为傲的能力,在Orca的作者看来,只是"统计匹配"的豪华升级版。

Orca论文原话:"智能不应该仅仅是能做Next-Token-Prediction的模型、能生成高质量视频的Next-Frame-Prediction模型,或者能生成高质量动作的Next-Action-Prediction模型。它应该被定义为构建世界状态并支持多样化下游任务的能力。"

125,000小时视频。1.6亿次事件标注。1,150万VQA问答样本。这是Orca的训练规模。但真正让这篇论文区别于其他"更大模型、更多数据"故事的,是它的核心判断:用"预测下一状态"替代"预测下一个Token"。

什么叫"预测下一状态"

Orca不是拒绝"预测",它拒绝的是"预测什么"。

目前所有主流AI模型都在预测同一个东西:输出界面的下一个单元——下一个Token、下一帧像素、下一个动作指令。Orca说:别猜表面,猜本质。

论文给出了一个清晰的数学框架。世界的状态S随时间演化,变化受两部分因素驱动:隐式动力学z——物理规律、对象属性、场景动态、环境力场——以及显式条件c——人类指令、事件描述、任务目标。Δ大于0时预测未来状态,Δ小于0时回溯过去状态。

用白话翻译:一个球在空中,状态包含它的位置、速度、重力影响、空气阻力。不是"球在画面中间"这个像素信息,而是"这个球正在以9.8m/s²的加速度下落"这个物理事实。

这就是"状态"和"Token"的本质区别。Token是表面的,状态是本质的。Token是统计的,状态是物理的。

换个更形象的比喻:GPT就像一个考生,没见过物理课本,但刷了100万套物理选择题,凭选项出现的概率蒙对了90%。Orca则像另一个考生,没刷过题,但真正读懂了牛顿三定律,即使题目换了表述方式他也能做对。

前者记住的是"这个位置通常选C"。后者理解的是"力等于质量乘以加速度"。

婴儿式学习:无意识加有意识

Orca提出了一个非常有趣的学习框架:无意识学习加有意识学习。这个二分法直接致敬了人类认知发展的路径。

无意识学习,指的是直接从连续视频中学习。像婴儿一样,不需要有人告诉你"球在下落",你看多了就自然懂了物理规律。Orca从125,000小时视频中捕获密集的物理状态转换——每一帧之间的变化,每一个物体的运动轨迹,每一次碰撞的因果关系。这个过程不使用任何标注标签,靠的是自监督信号。

有意识学习,则用语言描述的事件和视觉问答来组织因果结构。比如"球落地了"、"门被打开了"、"猫从桌上跳下来了"。这些是有意义的语义事件。不是连续的像素变化,而是离散的、有因果关系的状态转换。它回答的是:发生了什么?为什么发生?如果换一种干预会怎样?

Orca项目主页引用:"婴儿在学会语言之前,就已经通过观察世界理解了物理规律——物体如何运动、接触如何发生、被遮挡的物体是否仍然存在、场景在动作之后如何变化。"

无意识学习提供密集的世界经验,有意识学习将这些经验转化为可以被推理和交流的因果模式。二者缺一不可。

这个设计背后有一个野心:Orca不是在做一个"更好的视频模型"或"更好的语言模型",它试图构建一个通用世界基础模型(general world foundation model)。一个能同时处理语言、视觉和行动的共享世界表征。这远远超出了大多数"世界模型"论文的宣称范围。

最惊人的发现:没学动作,却学会了行动

Orca论文中最令人震惊的结果不在文本生成,也不在图像预测,而在机器人任务。

预训练阶段,Orca没有使用任何动作标签。完全零动作监督。它只是看视频。125,000小时的视频,理解世界在如何运转。然后当它被接入轻量级的动作解码器,在真实机器人任务上测试时,结果令人侧目。

AI Weekly的报道给出了具体数据。在真实机器人分布外(OOD)测试中,Orca-4B达到了36.6%的成功率,而同等规模的专业机器人基线模型π₀.5只有27.6%。差距接近10个百分点。在没有使用任何动作标签预训练的前提下,这个结果几乎违反了机器人学习的直觉。

不仅如此,在多任务视频基准测试中,Orca-4B在MVBench、TemporalBench、3DSRBench和SWITCH四个基准上的平均得分为51.8,而同等规模的Qwen3.5-4B只有46.7。

这意味着什么?

传统机器人学习需要大量的"动作标签"——告诉机器人"在这个状态下,应该执行这个动作"。这是一个极其昂贵的标注过程。机器人公司往往需要雇佣数十名标注员,花几个月时间给每一帧视频打上动作标签。

但Orca证明:理解物理世界本身就隐含了行动能力。你不需要教机器人"抓杯子",你只需要让它看100万次杯子被抓住的视频。当它真正理解了"抓"这个动作的物理含义——手的形状、力的方向、物体的重量、接触面的摩擦——它自然就知道怎么抓了。

这可能是当前AI领域最重要的未被充分讨论的发现:世界理解本身就是一种隐式策略。

GPT是模仿,Orca是理解?

这个问题可能是整个AI行业最本质的争论:大语言模型到底是在"理解"还是在"模仿"?

支持"理解"的一方会说:如果GPT能通过律师资格考试、能写出优美的诗歌、能解决复杂的数学问题,你说它只是在"模仿"?那人类的学习不也是基于经验的模式匹配吗?

支持"模仿"的一方会说:GPT本质上是一个巨大的"完形填空"机器。它没有身体,没有物理体验,没有对世界的真实感知。它怎么可能"理解"?

Orca的答案是:你们争论的焦点错了。关键不在于能不能理解,而在于理解了什么。

GPT理解的是文本分布——"今天天气"后面跟"真好"的概率分布。Sora理解的是像素分布——"一个球在运动"的像素时序模式。机器人模型理解的是动作分布——"看到杯子"之后该"抓取"的动作序列。

这三个理解有一个共同缺陷:它们理解的是"表面",不是"本质"。

Orca试图理解的是世界状态的分布——物理实体在时间和空间中如何演化,因果关系如何起作用,干预如何改变结果。当Orca看到一个全新的场景——比如一个球在太空中漂浮——它能推理出"这里没有重力,所以球不会下落"。GPT做不到这一点,因为它的训练数据里没有足够的"在太空中的球"的文本。Sora也做不到,因为它的像素分布从来没有学习过"重力"这个抽象概念。

这就是Orca暗示的从"统计模仿"到"物理理解"的临界点。

一个有趣的旁证:BAAI此前的论文Emu3已经在Nature上发表,证明了"下一个Token预测"范式可以统一视觉和语言。Orca相当于在Emu3的方向上又往前迈了一大步——不是用"下一个Token"统一所有模态,而是用"下一个状态"替代"下一个Token"本身。

万亿美元的问题:谁对谁错

Orca的论文不是一篇完美的论文。AI Weekly的报道直言不讳地指出了几个关键问题。

第一,论文摘要说Orca"超越了同等规模的专业基线",但未说明具体基准是什么、超出多少。所有数字来自论文自身的报告,缺乏第三方独立验证。

第二,代码、权重和数据集的发布计划没有提及。57位作者来自哪些机构、125,000小时视频语料库是如何构建的、是否有数据版权问题——这些关键信息都尚未公开。

第三,Orca的核心宣称——"一个冻结的骨干网络可以同时服务于文本生成、图像预测和机器人动作"——听起来很美,但能否在第三方复现中成立,才是真正的考验。用AI Weekly的话说,这是"在接下来的几个月里靠第三方复现来决定成败的东西"。

但Orca的价值不在于它是否完美。它的价值在于提出了一个可能改变AI行业走向的问题。

如果"预测下一状态"真的比"预测下一个Token"更接近"理解"的本质,那么今天整个AI行业的算力基础设施投资逻辑需要被重新审视。

OpenAI、Google、Meta这些押注"更大模型、更多Token、更多算力"的巨头,如果Orca的范式被证明是正确的,它们万亿美元级别的算力投资可能走错了方向。因为"下一状态预测"不需要无穷大的参数。它需要的是对物理世界的高效建模,而不是对文本统计分布的极致逼近。

DeepSeek、Qwen等聚焦于语言模型的中国玩家,如果Orca的方向被验证,它们可能需要重新思考"语言模型"的边界。语言只是世界状态的一种读出口,而不是世界的全部。

对于机器人公司来说,Orca意味着一个更激进的未来:也许不需要再花几千万美元标注动作数据了。让机器人"看电视"就行。

不只是Orca的事

Orca不是孤例。Vedant等学者关于"多Token预测"的研究表明,同时预测多个后续Token能强迫模型学到更高层的结构。Google DeepMind一直在探索"世界模型"用于规划和控制。NVIDIA的Cosmos平台试图构建物理世界的基础模型。OpenAI的Sora虽然失败了,但它最初的目标是"世界模拟器"而不是"视频工具"。

所有这些方向都在从不同的角度逼近同一个问题:预测下一个,真的够吗?

Orca给出的回答是:不够。但问题不在于"预测"这个训练方式,而在于"预测什么"这个范式选择。如果选对了预测目标——从"下一个Token"转向"下一个状态"——也许"预测"本身就是通往理解的路径。

这听起来有点反直觉。但想想人类自己:我们不也是一生都在"预测下一个"吗?看到一个人举起手,你预测他要打招呼。听到雷声,你预测要下雨。发现杯子在桌沿,你预测它会掉下来。区别在于,人类预测的不是"下一个词",而是"世界的下一状态"。这个预测能力来自几十年对物理世界的密集观察。

Orca把同一件事教给了机器。

所有AI都在猜下一个是什么。但Orca说:别猜答案,猜世界。

作品声明:内容由AI生成