智源王仲远:世界模型是通往物理AGI之桥

世界模型是解决人工智能走入物理世界的最佳路径。

2026年6月12—13日,北京中关村国际创新中心,第八届智源大会如约而至。

这场大会的主题覆盖了二十余个AI行业热度最高的议题,嘉宾阵容更是涵盖灵奖得主、顶级科学家、头部AI企业创始人等众多行业大咖,线下参会人数突破万人。

回顾以往的智源大会,会发现一个有趣的“预告”:在大语言模型最火热的时刻,智源就已经将世界模型标记在了AI演进的路径上:大语言模型——多模态——世界模型——物理AGI,这也使得智源研究院成为国内最早提出并开展世界模型研究的科研机构。

2023年智源大会上,杨立昆(Yann LeCun)阐述了新一代世界模型的概念;2024年,智源研究院提出的人工智能大模型技术路线预判,明确指出世界模型是下一代大模型技术;其2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5,更是全球首个原生多模态世界模型。

基于这些技术沉淀,今年的智源大会上集中释放了一批优异的科研成果——有媒体称之为“悟界五连发”:原生多模态大模型悟界·Emu3.5;多模态神经科学大模型悟界·Brainμ1.0;AI驱动药物发现模型悟界·OpenComplex2.5;通用世界基座模型悟界·Physis-v0.1与以物理状态预测为核心的具身大脑悟界·RoboBrain Orca。

而在当下世界模型叙事的浪潮中,悟界·Physis-v0.1与悟界·RoboBrain Orca成为了这次智源大会的绝对主角。

悟界·Physis-v0.1作为全球首个通用世界基座模型,以”预测下一物理状态”为核心。它不再依赖传统像素、帧级预测方案,而是通过物理隐空间表征学习真实世界运行规律,将视频、深度RGB、3D点云、力触反馈等多模态信息统一编码为物理状态Token,让模型得以完成跨场景的通用物理规律强化学习,支持复杂物理场景的长程推理。

而悟界·RoboBrain Orca作为下一个物理状态预测为核心的具身大脑,构建了"统一表征—建模—预测—交互"完整闭环,具备统一表征、因果推演、模态解码三大核心能力,可同时生成语言思考、视觉预测与动作决策,支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

“智源目前认为现有的世界模型技术可分为四类。最广为人知的应该就是视频生成模型。”王仲远表示,“而目前来看,大家都在叫的世界模型都不是真正意义上的世界模型。这是一种对世界模型的误读,视频生成不等于世界模型,这是智源非常清晰的态度。”

事实上,当Sora、VLA、World Action Model都被冠以“世界模型”的名号,行业确实陷入了一场概念混战。在这个定义尚未收敛的全新战场上,智源选择先亮出自己的坐标。在王仲远看来,这是一次“正本清源”。

以下为与王仲远的对话全文,略有删减:

创投家:为什么智源定义世界模型是通往物理AGI的必经之路?

王仲远:世界模型是面向真实物理世界的下一代基座模型,它让机器人真正"理解"物理世界,而不是只背诵训练轨迹。从"预测下一个Token"到"预测下一个物理状态"的变革,我们认为也是人工智能的一次重大范式变革,将会产生面向物理世界、物理AI的基座模型诞生的机会。

世界模型不仅能感知、理解、推理真实物理世界的时间、空间、物理规律和物理常识,同时能涵盖文本、视频、深度、力觉、感知等全模态数据,还具备主动交互能力,能够支撑各种物理世界的下游应用。

通用世界基座模型,不仅需要能够实现物理的正确,还要能够有动作因果的可溯和长时间序列的一致性以及通用泛化能力。我们开发世界基座模型最核心的原因,就是认为世界模型是具身智能可行的技术解决方案。现在这个产业需要一次核心技术突破,而世界模型就是那座桥。

创投家:据您的观察,当下世界模型有哪些技术路线上的分歧?

王仲远:今年可以明显感觉到世界模型的热度非常高,很多不同的技术路线、不同的场景模型都冠以世界模型。简单来看,智源将现有的世界模型梳理为四种主流技术定义方式:以语言为中心、以像素为中心、以三维结构为中心,以及以视觉表征为中心。

第一类是以以语言为中心的世界模型,包含大语言模型、VLM、VLA都是归类为以语言为中心。世界模型的核心就是能够让人工智能进入物理世界,感知、理解、推理,跟物理世界交互,语言也有总结很多世界的知识,只是以文字的方式表达,VLM、VLA是把其它模态、其它能力映射到语言空间,所以以语言为中心也是属于一类世界模型。

第二类是以像素为中心的世界模型,这也是当前被误用最广泛的方向。OpenAI将Sora定义为"World Simulator",本质上是在预测下一个2D像素场景,这类模型在视频生成上有广泛应用。但由于训练数据大量来自影视作品和科幻片,模型会生成不符合真实物理规律的内容——比如物体凭空消失、违背重力逻辑、流体动力学错误等。Yann LeCun也曾多次公开批评,生成像素并不等同于理解物理因果。

第三类是以三维结构为中心的世界模型。李飞飞教授2024年创办World Labs,提出"空间智能"理念,其发布的Marble可以从单张图片生成可交互的持久化3D环境,本质上瞄准的是数字世界的构建,将来可能应用于元宇宙、游戏场景和数字孪生。但模型重建3D空间不等于理解世界,几何结构也不代表物理状态。

第四类是以视觉表征为中心的世界模型。比如杨立昆的JEPA系列模型,预测的是视觉表征的压缩,但视觉嵌入演化不等于物理规律演化。

创投家:智源的世界模型走的是哪一条路线?

王仲远:事实上,我们认为将来也许会有第五个分类,或者智源尝试的很有可能是第五个分类:就是以语言为中心的分类和以视觉表征为中心的分类的融合,也叫做潜空间表征。

我们依然延续悟界·Emu3.5模型的训练思想,就是将各种文字图像视频模态全部压缩,原生统一训练,压缩在同一个语义空间,通过统一潜空间表征各种真实物理世界的状态,Decode成为Action、画面或者其它真实物理世界需要的状态。

我们认为将来统一的潜空间建模不仅仅是视觉空间,而是全模态潜空间。这很有可能是世界模型的下一个可能性路径,但因为这条路径还没有完全走通,所以现在并不打算定义这个分类,期待明年和后年,智源再次分享最新成果的时候能够走通。

创投家:全行业世界模型的卡点到底在哪里?

王仲远:第一个卡点是物理理解。

现在主流的视频生成模型能做出一分钟、两分钟的画面,画面看起来没问题,但物理规律是错的。一瓶盖着盖子的水和一瓶没盖的水掉在地上,人类大脑会立刻预判后果——没盖的水会洒出来,盖着的可能弹起来。这种物理后果的预判,现在的模型完全没有。我们不是在教模型生成视频,我们是在教它理解物理规律,然后基于这个理解去预测下一个状态。

第二个卡点是时间一致性。很多模型从五秒到十秒到一分钟,看起来时间跨度在增加,但本质上还是在解决"下一帧像不像"的问题。你给一个瓶子加水,旁边放一个时钟,镜头移开再移回来,时钟走了十秒还是二十秒?模型不知道。长时间序列的一致性,不是画面连贯就够了,是瓶子里到底有多少水、时钟走了多少秒、物体的位置关系有没有改变——这些状态变量必须在时间轴上保持一致。

第三个卡点,也是最大的卡点——世界模型最终要服务于行动。人类看到瓶子要掉下去,会自动伸手去扶。这个Action不是从视频里学来的,是从物理交互里学来的。我们需要把多模态感知、物理规律理解和动作执行三者打通,而不是让它们各自为政。具身智能在大量采集真实物理世界的数据,这些数据是有意义的,但怎么让模型从"看懂"变成"会做"又是另一个层面的问题。

这很像当年大语言模型依赖互联网数据爆发,世界模型也需要一个足够规模的、真实物理交互的数据底座,才能迎来真正的拐点。

创投家:训练世界模型,最需要什么样的数据?

王仲远:视频数据是第一性原理。

去年我接受媒体访谈时举过一个例子:一个两岁小女孩,父母从来没有手把手教过她怎么拆糖果、怎么串蓝莓。但她每天刷短视频,看着屏幕里的小姐姐吃,看着看着,自己就会了。她通过视频观察真实物理世界的交互,然后在自己的世界里尝试、犯错、修正,最终掌握了这些能力。

视频是她唯一的信息输入,但输入的是物理世界的因果链条。她看到"手伸向蓝莓→串起来→送进嘴里",这个画面里包含了动作、物体、空间关系、时间顺序,这些不是文字描述,而是物理过程本身。这说明一个核心道理:视频数据天然携带了物理世界的结构化信息,只是我们现在还没有充分挖掘它的潜力。

创投家:所以核心还是海量的视频数据?

王仲远:视频是底座,但不够。那个两岁女孩,她看视频之后还要真实物理交互——自己拿蓝莓、自己串、掉了再捡。这个环节是视频给不了的。

所以第二层数据是真实物理世界的异构感知数据:机器人的关节角度、触觉反馈、力矩变化、传感器读数……这些"身体感受"是视频里没有的。悟界·Physis在训练时就是双层结构:底层用海量视频数据建立物理世界的概念模型,上层用真实物理交互数据来精调动作和决策。两者缺一不可。

创投家:您认为世界模型与VLA模型的本质区别是什么?

王仲远:现在的VLA和具身模型,最大的痛点是不具备泛化性,也不具备自我推理和决策能力。

你把它放在训练过的场景里,它能做;换一个场景,它就蒙了。因为它的"世界理解"不是从足够丰富的物理经验里学来的,而是从有限的、标注过的轨迹里硬背下来的。

像那个两岁女孩,如果她只看过三段串蓝莓的视频,她一定学不会;但如果她看了三百段,再加上自己试了几十次,她大脑里的"世界模型"就泛化出来了。

所以我们的判断是:真实物理世界的数据需要持续累积,最终和视频数据一起,喂给世界基座模型,才能迸发出真正的泛化能力。

好消息是,现在具身智能和AI硬件正在大量采集真实数据,这些数据的汇总和积累,正在逐步触及物理世界基座模型的爆发点。很像当年大语言模型需要依赖互联网数据,数据量到了,拐点就来了。

创投家:那VLA和世界模型的终局关系是?

王仲远:VLA是当下、世界模型是未来。VLA也不会被完全取代,但会分层。在特定场景的落地上,VLA依然非常有效,比如工厂里分拣包裹,这种特定任务、特定场景,搜集特定数据就能完成,VLA是完全够用的。

但VLA有几个结构性局限:

第一个是模型太大,部署端响应速度不够。真实物理世界执行动作是有频率要求的,机器人要实时反应,VLA的Latency太高了,满足不了。

第二个是刚刚提到的泛化性。它是在一个固定场景里用固定数据训出来的,场景一变就需要重新采集数据重新训练。

第三个,也是最关键的,VLA解决不了长程规划和复杂空间物理规律的推理。

创投家:所以VLA是阶段性的过渡方案?

王仲远: 你可以把它理解成沿途下蛋。VLA促进了机器人在特定场景落地,这本身有价值。但它不是终局。十年后,7B、10B甚至3B的小模型会越来越顺畅,部署问题会缓解,但底层问题还在。换一个场景,它依然不懂物理,不会推理。

世界模型是解决泛化性和物理推理的终局。短期VLA继续落地,长期世界模型接管。两条路不是对立的,是接力的关系。

创投家:世界模型到底能在哪些场景落地?

王仲远:场景分为两条主线:具身智能和物理仿真引擎。

具身是最确定的场景。整个具身产业正卡在一些核心技术瓶颈上:机器人的泛化能力。而世界模型就是来解决这个问题的。虽然现阶段它还做不到通用,但会沿途下蛋,在解决具体场景问题的过程中不断积累。

理想态的世界基座模型既可以用于具身,也可以用于物理仿真、科学实验,包括其它物理世界的真实场景,应用应该非常广泛。

创投家:世界模型在数据采集层面的价值,是不是主要就是生成合成数据?

王仲远:生成数据是其中之一,但远不是主要价值。我们当然不否认视频生成模型在无人驾驶、自动驾驶和具身场景都有独特价值——悟界·Physis和悟界·RoboBrain Orca也确实展示了真实的画面生成能力。但如果把世界模型只当成"数据生成器",那就把它用小了。

创投家:那在数据层面,它更大的价值是什么?

王仲远:是决策前置。世界模型真正强调的是:基于当前Context和状态,预测未来可能发生的各种情况,然后做出最优决策。这跟《奇异博士》有点像——他不是只能看到一种未来,他能看到几千种未来,然后选择那一种最好的结果。

创投家:这和数据采集有什么关系?

王仲远:关系在于,它能指导你采什么数据。传统数据采集是"扫街"式的——开着车满世界跑,遇到什么采什么。有了世界模型,你可以先问它:如果我要解决这个场景的泛化问题,哪些物理状态变量最关键?哪些边缘情况最可能发生?然后我有针对性地去采集,而不是盲目堆数据。这样数据效率是数量级的提升。

世界模型不是造数据的工具,而是规划数据需求的大脑。基于对未来状态的预测,它能告诉你"缺哪块数据",而不是"帮你生成一堆似是而非的数据"。悟界·Physis和悟界·RoboBrain Orca确实能生成画面,但那只是验证手段,不是核心应用。

创投家:训练世界模型对算力的要求是不是更高?

王仲远: 要看你走哪条路。世界模型目前技术路线没有完全收敛,不同路线对算力的需求天差地别。

如果你把语言体系包进去,走生成路线,那算力需求就是海量的,和GPT-4、Sora一个量级。这些路线本身也是世界模型技术路径的一种探索,但它们天然就是算力黑洞。

创投家:智源走的是什么路线?对算力要求高吗?

王仲远: 悟界·Physis的设计思路是不包含语言,专注在视觉和物理状态的Latent学习。Latent学习方法的本质是极致压缩——不是把整个世界打成像素重建,而是在隐空间里学习物理状态的抽象表示。这省下来的算力是数量级的。所以我们现在推进 悟界·Physis,算力需求是相对可控的,不需要堆万卡集群才能跑。

创投家:您预期世界模型距离技术成熟还需要多久?大家都觉得大语言模型上中美的差距是六到十二个月,那世界模型呢?

王仲远:必须承认物理AI特别是世界基座模型的研究,全世界范围依然处在非常早期,甚至是概念和技术路径都远没有收敛,因此我们的模型才称之为0.1版本。距离成熟,至少还需要三到五年,甚至更久。科研探索这件事说不准,可能卡在一个难点三五年也没突破,但也可能突然迎来技术爆发。

而在世界模型这个赛道上,我觉得中美没有差距。

本文系作者 科技不焦虑 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App