世界模型,为什么突然成了一门显学?

AGI
谁在定义世界模型?

文 | 世界模型工场

如果你最近关注AI产业,大概率会感到困惑。

这个月的新闻,似乎被“世界模型”四个字占领了。

大厂在发世界模型,机器人公司在发世界模型,自动驾驶公司也在发世界模型。

各家用词甚至都不统一:世界模型、统一世界模型、具身世界模型、空间智能、Physical AI、机器人大脑、自动驾驶世界模型……

它们看起来像是同一件事,又不是同一件事。

这种混乱恰恰折射出一个正在发生的产业事实:

一个重要的技术概念正在同时渗入多个赛道,每个赛道都在用自己的语言定义它。

为什么一夜之间所有人都在讲世界模型?

世界模型的误区

要理解当下的混乱,必须先回答一个问题:当我们在谈论世界模型的时候,到底在谈论什么?

一个常见的误区,是把世界模型和具身智能混为一谈。

当下最受关注的几家具身智能公司,都有关于世界模型的叙事,例如:

无界动力明确把世界模型放到核心架构里,强调“原生世界模型+强化学习”,并把隐空间世界模型作为通用具身大脑的核心。

极佳视界打出了“具身世界模型”的旗号,它的重点在于用世界模型弥补真实数据不足、提升策略训练和场景泛化能力。

智元机器人、星动纪元则更像完整具身系统玩家,世界模型是其中提升泛化、仿真、动作推理和数据生成能力的关键模块。

银河通用则被理解为“通用具身大脑”路线,世界模拟能力是这种大脑的重要组成部分。

这也正是具身智能叙事最容易让人困惑的地方。

它同时出现了“世界模型”“具身世界模型”“原生世界模型”“通用具身大脑”等多个说法,但这几个词并不是同义词。

更准确的关系是,世界模型是底层能力,具身世界模型是它在机器人场景里的版本,原生世界模型是一种以世界建模为中心的技术路线,而通用具身大脑则是把这些能力组织起来、驱动机器人行动的完整系统。

所以,具身智能的确和世界模型高度相关,但并不等于世界模型。

一个机器人要真正完成任务,依赖的是一整套具身智能系统:

感知模型负责看见环境,世界模型负责理解环境状态并预测动作后果,任务规划模型负责拆解目标,VLA或策略模型负责把视觉和语言指令转成动作,底层控制系统再把动作落到机械臂、关节、底盘和传感器反馈上。

在这套架构里,世界模型占据的是一个极其关键的位置,它是物理后果的推演引擎。

如果你仔细审视这些具身智能赛道的公司,会发现他们关注的底层问题,比如:

机器人能不能在内部形成一个可推演的世界模型,这个模型能不能理解空间、结构、时间和物理变化等。

这正是狭义世界模型真正的核心命题,其关键词是生成、表征、预测、推演。

世界模型的落地方向

事实上,世界模型并不只有具身智能这一个落地场景。

它的玩家构成了一张跨越学术与产业的牌桌,而这张牌桌上的每一家,都在从不同方向逼近同一个目标。

先看牌桌上最接近原生定义的一端。

图灵奖得主Yann LeCun创立的AMI Labs,在所有玩家中口号最决绝。

他公开批评LLM路线是死胡同,理由是真正的世界模型不只是生成逼真的像素画面,而是在抽象表征空间中学习世界状态、物理约束和因果关系,从而支持预测与规划。

AMI打出的标签只有一个:world models,明确定位为区别于纯大语言模型路线的下一代AI核心架构。

同样站在定义权这一端的,还有李飞飞创立的World Labs。

她反复强调的概念是spatial intelligence,如果真实世界是三维的,机器就必须显式地理解三维结构。

其产品Marble可以从文本、图像、视频或360度全景生成空间一致、可穿行、可编辑的3D世界。

沿着光谱往下走,是两大中国互联网巨头,它们的方向更偏向可交互世界的工业化落地。

阿里巴巴的Happy Oyster,能让创作者用文字实时操控虚拟世界中的运镜、剧情与场景变化,本质上是在生成一个可持续、可编辑的时空序列。

腾讯的HY-World 2.0官方则直接写明是3D世界模型,核心能力是将生成的3D资产无缝对接游戏引擎,解决的是三维世界的可生产性问题。

阿里和腾讯的重点都不是机器人,而是内容与空间世界。

自动驾驶赛道则提供了另一种验证方式。

Waymo将世界模型用于大规模高保真自动驾驶仿真,在闭环环境中推演车辆、行人、骑行者之间复杂的时空交互。

小鹏汽车的X-World基于视频扩散生成,能预测多摄像头视角下的未来路况,把鬼探头这类长尾场景训练变成日常仿真。

它们的关注点也不是机器人身体,而是用世界模型去预测物理世界中的多智能体动态演变,以此完成仿真、验证和强化学习。

把这几条线并置来看,一个清晰的结构浮现出来:

世界模型是底层范式的总线,具身智能、自动驾驶、3D世界生成,则是它当前最显眼的几个分支场景。

这就是为什么此刻所有人都在谈世界模型,但说的好像又不是同一件事。

世界模型本身,正在成为一种底座能力。

世界模型的产业分工

把世界模型的三个落地方向并置来看,一个看似矛盾的现象便会浮现。

自动驾驶方向拥有最清晰的验证闭环、最迫切的产业需求、以及最可量化的效果指标,按理说应该聚集最多的玩家和资本。

但现实格局却呈现出另一种分布:

大厂在重注3D世界生成,热钱在涌入具身智能,而自动驾驶世界模型更多是行业内部在埋头推进。 

同一项底层技术,在三个方向上的资源分布不均衡,这本身就是理解世界模型产业逻辑的一把钥匙。

先看自动驾驶这一侧。

它之所以是世界模型当前最强的现实落点,原因并不神秘。

自动驾驶天然就是一个受物理定律严格约束、对预测精度要求极高、且容错空间极小的场景。 

在道路环境中,世界模型的任务极其明确:预测周围车辆、行人、骑行者未来几秒内的运动轨迹,推演自车每一个动作可能带来的物理后果。

这个任务被明确地约束在交通规则、路面结构、车辆运动学和多智能体交互的框架之内,这意味着它的评估标准可以被精确量化。

这种清晰性带来了两个直接好处。

第一,技术验证周期短。一个世界模型好不好,在仿真环境中跑一圈就知道。

第二,产业需求真实且紧迫。世界模型是解决长尾场景和仿真数据稀缺问题的工程工具。

既然自动驾驶的落地路径如此清晰,为什么大厂和资本没有把主要筹码全部押在这里?

阿里和腾讯选择3D世界生成,是因为它离自己的主营业务最近,变现路径最短。 

阿里Happy Oyster能直接为电商和内容生态提供可交互的3D世界,腾讯HY-World 2.0输出的是游戏行业看重的3D资产生产能力。

对大厂而言,世界模型不是一项需要重新找商业模式的技术,而是一种可以直接浇筑进现有生态的底层能力。

创作者工具、游戏引擎、内容分发管道早已就绪,缺的只是一个能高效生成3D世界的引擎。

这个方向的优势是确定性最高、落地最快。

自动驾驶公司选择仿真预测,是因为世界模型在这里是生存问题,而非战略选择。 

如果不能在内部预测物理世界的动态演变,就不可能上路。

但这个方向的玩家高度集中于行业内部,融资节奏和估值体系受制于汽车产业的资本逻辑,不会像AI原生公司那样,出现爆炸式估值增长。

而风投把最重的筹码押向具身智能,赌的是一个更深层的东西:世界模型能否成为一项通用底层?而机器人恰好是离通用性最近的训练场。 

在投资人眼中,如果一个模型能够在厨房、仓库、工厂、家庭等不同环境中,学习物理规律和动作后果,它就可能成为机器人泛化能力的核心组件。

它可以与VLA、策略模型、强化学习和底层控制系统结合,也可能在更激进的路线中与动作模型融合,形成更统一的具身大脑。

由此,一个清晰的产业分工格局出现了。

大厂在抢离钱最近的内容出口,自动驾驶在抢确定性最高的工程出口,资本在赌天花板最高的通用出口。 

把它们串联起来的,正是那个正在形成中的产业共识:

世界模型不是任何一个行业的附属品,而是一种正在渗入多个产业的底层建模能力。 

大厂、自动驾驶巨头和风险资本的站位差异,不过是在用各自的筹码,赌这个内核在哪个场景中,最先触达它的终极形态。

这或许可以解释眼下产业界那种既亢奋又混乱的状态。

未来某一天,当人们回看这个春天,会发现所有的喧嚣,不过是一项技术从实验室走向产业底座时,必须穿过的那段模糊地带。

本文系作者 世界模型工场 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App