世界模型，为什么突然成了一门显学？-钛媒体官方网站

文 | 世界模型工场

如果你最近关注AI产业，大概率会感到困惑。

这个月的新闻，似乎被“世界模型”四个字占领了。

大厂在发世界模型，机器人公司在发世界模型，自动驾驶公司也在发世界模型。

各家用词甚至都不统一：世界模型、统一世界模型、具身世界模型、空间智能、Physical AI、机器人大脑、自动驾驶世界模型……

它们看起来像是同一件事，又不是同一件事。

这种混乱恰恰折射出一个正在发生的产业事实：

一个重要的技术概念正在同时渗入多个赛道，每个赛道都在用自己的语言定义它。

为什么一夜之间所有人都在讲世界模型？

世界模型的误区

要理解当下的混乱，必须先回答一个问题：当我们在谈论世界模型的时候，到底在谈论什么？

一个常见的误区，是把世界模型和具身智能混为一谈。

当下最受关注的几家具身智能公司，都有关于世界模型的叙事，例如：

无界动力明确把世界模型放到核心架构里，强调“原生世界模型+强化学习”，并把隐空间世界模型作为通用具身大脑的核心。

极佳视界打出了“具身世界模型”的旗号，它的重点在于用世界模型弥补真实数据不足、提升策略训练和场景泛化能力。

智元机器人、星动纪元则更像完整具身系统玩家，世界模型是其中提升泛化、仿真、动作推理和数据生成能力的关键模块。

银河通用则被理解为“通用具身大脑”路线，世界模拟能力是这种大脑的重要组成部分。

这也正是具身智能叙事最容易让人困惑的地方。

它同时出现了“世界模型”“具身世界模型”“原生世界模型”“通用具身大脑”等多个说法，但这几个词并不是同义词。

更准确的关系是，世界模型是底层能力，具身世界模型是它在机器人场景里的版本，原生世界模型是一种以世界建模为中心的技术路线，而通用具身大脑则是把这些能力组织起来、驱动机器人行动的完整系统。

所以，具身智能的确和世界模型高度相关，但并不等于世界模型。

一个机器人要真正完成任务，依赖的是一整套具身智能系统：

感知模型负责看见环境，世界模型负责理解环境状态并预测动作后果，任务规划模型负责拆解目标，VLA或策略模型负责把视觉和语言指令转成动作，底层控制系统再把动作落到机械臂、关节、底盘和传感器反馈上。

在这套架构里，世界模型占据的是一个极其关键的位置，它是物理后果的推演引擎。

如果你仔细审视这些具身智能赛道的公司，会发现他们关注的底层问题，比如：

机器人能不能在内部形成一个可推演的世界模型，这个模型能不能理解空间、结构、时间和物理变化等。

这正是狭义世界模型真正的核心命题，其关键词是生成、表征、预测、推演。

世界模型的落地方向

事实上，世界模型并不只有具身智能这一个落地场景。

它的玩家构成了一张跨越学术与产业的牌桌，而这张牌桌上的每一家，都在从不同方向逼近同一个目标。

先看牌桌上最接近原生定义的一端。

图灵奖得主Yann LeCun创立的AMI Labs，在所有玩家中口号最决绝。

他公开批评LLM路线是死胡同，理由是真正的世界模型不只是生成逼真的像素画面，而是在抽象表征空间中学习世界状态、物理约束和因果关系，从而支持预测与规划。

AMI打出的标签只有一个：world models，明确定位为区别于纯大语言模型路线的下一代AI核心架构。

同样站在定义权这一端的，还有李飞飞创立的World Labs。

她反复强调的概念是spatial intelligence，如果真实世界是三维的，机器就必须显式地理解三维结构。

其产品Marble可以从文本、图像、视频或360度全景生成空间一致、可穿行、可编辑的3D世界。

沿着光谱往下走，是两大中国互联网巨头，它们的方向更偏向可交互世界的工业化落地。

阿里巴巴的Happy Oyster，能让创作者用文字实时操控虚拟世界中的运镜、剧情与场景变化，本质上是在生成一个可持续、可编辑的时空序列。

腾讯的HY-World 2.0官方则直接写明是3D世界模型，核心能力是将生成的3D资产无缝对接游戏引擎，解决的是三维世界的可生产性问题。

阿里和腾讯的重点都不是机器人，而是内容与空间世界。

自动驾驶赛道则提供了另一种验证方式。

Waymo将世界模型用于大规模高保真自动驾驶仿真，在闭环环境中推演车辆、行人、骑行者之间复杂的时空交互。

小鹏汽车的X-World基于视频扩散生成，能预测多摄像头视角下的未来路况，把鬼探头这类长尾场景训练变成日常仿真。

它们的关注点也不是机器人身体，而是用世界模型去预测物理世界中的多智能体动态演变，以此完成仿真、验证和强化学习。

把这几条线并置来看，一个清晰的结构浮现出来：

世界模型是底层范式的总线，具身智能、自动驾驶、3D世界生成，则是它当前最显眼的几个分支场景。

这就是为什么此刻所有人都在谈世界模型，但说的好像又不是同一件事。

世界模型本身，正在成为一种底座能力。

世界模型的产业分工

把世界模型的三个落地方向并置来看，一个看似矛盾的现象便会浮现。

自动驾驶方向拥有最清晰的验证闭环、最迫切的产业需求、以及最可量化的效果指标，按理说应该聚集最多的玩家和资本。

但现实格局却呈现出另一种分布：

大厂在重注3D世界生成，热钱在涌入具身智能，而自动驾驶世界模型更多是行业内部在埋头推进。

同一项底层技术，在三个方向上的资源分布不均衡，这本身就是理解世界模型产业逻辑的一把钥匙。

先看自动驾驶这一侧。

它之所以是世界模型当前最强的现实落点，原因并不神秘。

自动驾驶天然就是一个受物理定律严格约束、对预测精度要求极高、且容错空间极小的场景。

在道路环境中，世界模型的任务极其明确：预测周围车辆、行人、骑行者未来几秒内的运动轨迹，推演自车每一个动作可能带来的物理后果。

这个任务被明确地约束在交通规则、路面结构、车辆运动学和多智能体交互的框架之内，这意味着它的评估标准可以被精确量化。

这种清晰性带来了两个直接好处。

第一，技术验证周期短。一个世界模型好不好，在仿真环境中跑一圈就知道。

第二，产业需求真实且紧迫。世界模型是解决长尾场景和仿真数据稀缺问题的工程工具。

既然自动驾驶的落地路径如此清晰，为什么大厂和资本没有把主要筹码全部押在这里？

阿里和腾讯选择3D世界生成，是因为它离自己的主营业务最近，变现路径最短。

阿里Happy Oyster能直接为电商和内容生态提供可交互的3D世界，腾讯HY-World 2.0输出的是游戏行业看重的3D资产生产能力。

对大厂而言，世界模型不是一项需要重新找商业模式的技术，而是一种可以直接浇筑进现有生态的底层能力。

创作者工具、游戏引擎、内容分发管道早已就绪，缺的只是一个能高效生成3D世界的引擎。

这个方向的优势是确定性最高、落地最快。

自动驾驶公司选择仿真预测，是因为世界模型在这里是生存问题，而非战略选择。

如果不能在内部预测物理世界的动态演变，就不可能上路。

但这个方向的玩家高度集中于行业内部，融资节奏和估值体系受制于汽车产业的资本逻辑，不会像AI原生公司那样，出现爆炸式估值增长。

而风投把最重的筹码押向具身智能，赌的是一个更深层的东西：世界模型能否成为一项通用底层？而机器人恰好是离通用性最近的训练场。

在投资人眼中，如果一个模型能够在厨房、仓库、工厂、家庭等不同环境中，学习物理规律和动作后果，它就可能成为机器人泛化能力的核心组件。

它可以与VLA、策略模型、强化学习和底层控制系统结合，也可能在更激进的路线中与动作模型融合，形成更统一的具身大脑。

由此，一个清晰的产业分工格局出现了。

大厂在抢离钱最近的内容出口，自动驾驶在抢确定性最高的工程出口，资本在赌天花板最高的通用出口。

把它们串联起来的，正是那个正在形成中的产业共识：

世界模型不是任何一个行业的附属品，而是一种正在渗入多个产业的底层建模能力。

大厂、自动驾驶巨头和风险资本的站位差异，不过是在用各自的筹码，赌这个内核在哪个场景中，最先触达它的终极形态。

这或许可以解释眼下产业界那种既亢奋又混乱的状态。

未来某一天，当人们回看这个春天，会发现所有的喧嚣，不过是一项技术从实验室走向产业底座时，必须穿过的那段模糊地带。