文 | 硅谷101
4月17日,群核科技登陆港股,成为“杭州六小龙”首家完成IPO的企业。在我们硅谷101的对话中,创始人黄晓煌说,将押注空间智能的未来。
![]()
2026年,AI的新风向似乎已经越来越清晰了,那就是——世界模型。而在当前世界模型的所有技术分支中,很多的研究者都把空间智能(Spatial Intelligence)视为了那个真正的“关键拼图”。
什么是空间智能?它跟世界模型、具身智能之间究竟是什么样的关系?它的应用前景在哪里,现在还存在着什么样的问题?这篇文章,我们就和黄晓煌一起来聊聊这个话题。
群核科技的定位是做空间智能服务的提供商,他们目前已经建立起从“空间编辑工具”到“空间数据”再到“空间大模型”的一套完整的业务。所以这一次,除了关于空间智能的基础研究之外,黄晓煌也从空间智能的商业应用,以及他从英伟达辞职之后的回国创业历程和几次带领公司转型的经历,为我们提供了更多的技术和行业视角。
(本文为视频改写,欢迎大家收看以下视频)
01
跟世界模型一样,空间智能这个概念也是起源于认知科学。
1983年,教育心理学家霍华德·加德纳在著作《心智框架》中提出了多元智能理论,将空间智能列为人类七种核心智能之一。在他的理论框架里,空间智能并非简单的“方向感”,而是人类理解物理世界、建立空间认知、进行抽象视觉思维的底层能力。
![]()
而在计算机科学领域,空间智能的技术起点则是源于计算机视觉对三维空间的感知与理解研究。2009年,ImageNet的出现为AI视觉识别奠定了基础,但这一阶段的能力本质上仍停留在二维层面,机器并不真正理解物体所处的空间关系。
随后研究进入了“从二维到三维”的阶段。以SLAM(Simultaneous Localization and Mapping,同步定位与地图构建)为代表的一系列技术,让机器在移动过程中同时完成定位与建图,逐渐具备对空间结构的理解能力。AI不仅知道“看到了什么”,还开始知道“它在哪里”,从而可以构建出一个可被导航和操作的三维世界。
![]()
而最近几年,随着NeRF等3D表示方法,以及生成式模型和世界模型的发展,研究重点开始从“重建世界”,走向“理解和预测世界”。研究者不仅希望AI能够还原空间,还想让AI能像人一样去理解物体相对位置、重建空间结构,预测甚至自主规划路径。
也正是在这一阶段,来自计算机视觉、机器人和生成模型的多条技术路径开始汇合,形成了今天我们所说的“空间智能”。从模块上来说,它主要包含了空间的感知、表征、推理、预测和行动五大部分。
![]()
不过,这个概念听起来好像跟世界模型、具身智能都有很多的联系和相似之处,它们三者之间的关系究竟是什么样的呢?在对话中,黄晓煌也给我们举了一个比较通俗易懂的例子。
总结一下,世界模型就像是“大脑”,它能在“脑中”构建一个关于世界运行的“内部地图”,去理解事件之间的因果关系,去预测接下来会发生什么,甚至在没有真实发生的情况下,先在内部去“跑一遍”。
之后,空间智能就负责把世界模型的抽象理解落到三维物理空间里。让AI知道物体在哪里、如何分布、彼此之间如何作用。它连接了视觉感知、物理规律和动作决策,是AI从“认知”走向“行动”的关键一环。
![]()
当这两种能力进一步落到现实世界中,就形成了具身智能。当AI真正拥有“身体”,比如机器人、自动驾驶汽车,它需要把感知、推理、规划、控制整合成一个完整的闭环。这时AI面对的不再是数据,而是一个充满不确定性的真实世界。在这个过程中,世界模型负责训练阶段的内部模拟与决策推理,空间智能则在现实部署时承担感知与场景理解。
所以说,这三者之间,其实是一条非常清晰的路径:从在“脑海中”理解和预测世界(世界模型),到在空间中对世界进行三维建模(空间智能),再到让AI真正进入并作用于这个世界(具身智能)。
02
要真正实现具身智能,是无法跳过空间智能的。现在关于空间智能,业界主要有“空间生成”和“潜空间预测”两种路线。
首先,很多研究者认为,要实现空间智能,还是得先去“生成空间”。AI必须先拥有一个足够真实、可交互的3D世界,才能在其中反复试错、学习物理规律,并最终迁移到现实。这种路线最具代表性的就是李飞飞的World Labs,也包括群核科技、Meshy AI等等。
但空间究竟如何被生成呢?从生成方式上来看,目前主要有重建式、推断式、生成式三种路径。
![]()
重建式就是要通过激光扫描仪、深度相机、无人机摄影测量等从现实世界采集数据,再还原出三维结构。它的上限是输入数据的质量,现实采集得越完整,重建结果就越准确。
推断式是指当输入信息不足以完整还原场景时,比如只有一张照片,或者只有稀疏的几个视角,AI需要根据已有线索,去推理补全那些“看不见”的部分。随着大模型能力的提升这种路线获得了更大空间,是当前最活跃的方向之一。
生成式则是比推断式更进一步,它通过借助扩散模型、大型重建模型(LRM)等技术,让AI直接从海量数据中学习三维世界的规律,用户能够通过输入文字、图片、草图等就可以生成3D资产和场景。
但在实际的发展中,越来越多的前沿尝试正在把“重建、推断、生成”融合在一起使用。
以World Labs为例,虽然外界常把它归类为生成式路线,但它的目标并不只是生成3D内容,而是构建具备空间理解能力的世界模型。在这个过程中,它既借鉴重建式从真实数据中学习结构,也依赖推断能力补全不可见部分,再结合生成模型去构建新的空间。因此模型不仅要具备生成能力,还要同时处理深度估计、视角一致性以及几何约束等问题,从而让生成结果不仅“看起来像”,而且在空间结构上是成立的。
但无论是哪种生成的方式,空间都需要最终被表示出来。
![]()
传统的路径,是用点云、Mesh这样的方式来描述三维世界。点云是离散的点集,Mesh则在此基础上加入了面与边的连接,两者虽然形式不同,但核心思路是一致的,那就是通过在三维空间里打满坐标,把世界固定和搭建出来。这条路线直观、成熟,Mesh的编辑和修改尤其方便,因此在游戏、建模、数字孪生等领域被广泛使用。但现实世界的细节近乎无限,高精度往往意味着数据量的指数级增长,从采集、存储到实时渲染都面临巨大压力。
另一条路径,是近年来兴起的神经表示方法。以NeRF为代表,它不再把世界显式地“搭建”出来,而是训练一个针对特定场景的神经网络,让它隐式地记住这个场景的几何与外观信息。训练完成后,只要给定一个视角,它就能直接渲染出对应的画面。但NeRF的代价是速度慢,且每个场景都需要单独训练,不具备跨场景的泛化能力。
![]()
后来出现的高斯泼溅(3D Gaussian Splatting)则走了一条折中的路,用显式的高斯椭球体来表示场景,同时结合神经渲染的思路,在保留画面质量的前提下大幅提升了速度,让这一方向开始变得更加实用。不过,这两种方法目前对动态场景和大规模环境的处理能力仍在持续探索之中。
黄晓煌告诉我们,现在在实际的落地应用中,很多时候也是会把两种表征方式结合起来使用。
除了空间生成之外,也有一些研究者认为,很多需要空间智能的场景其实并不一定需要去做精致的3D重建,直接在潜空间里压缩感知、输出动作就够了。这种思路在学界通常被称为潜空间预测模型(Latent Predictive Models)。
![]()
这些研究者们认为,空间本质上是一组复杂的数学关系,AI并不需要还原视觉上的每一个像素,而应将复杂的环境信息压缩进高维的潜空间中。在这个空间里,AI学习的,是环境动态的统计规律——物体之间的距离、方位与因果联系。它有点像人类的“直觉”感知,即便没有精致的三维模型,依然能做出准确判断,从而实现更低延迟、更强泛化性的实时交互。这一路线代表包括Yann LeCun的JEPA架构、以及DeepMind的Dreamer系列等等。
但由于它不生成人类可见的图像或三维结构,相较于显式重建方法,它缺乏几何层面的可解释性,比如预测出错时,很难从空间角度定位问题所在,也难以进行人工干预和调试。此外,在处理跨越长时空、需要精细空间记忆的任务时,潜空间表示也容易丢失关键细节。
03
所以从商业落地的层面来说,空间生成路线成为了当下更为稳健的选择。它能够让空间智能在自动化设计、高精度机器人仿真、智能家居、游戏、电商等领域,都能够以最直观的方式完成从虚拟到现实的商业闭环。
比如World Labs最近的商业化速度非常快,通过其核心模型Marble和全新的World API,已经跟波士顿动力、Figure等顶尖机器人厂商达成合作,为它们提供海量的具备物理一致性的训练环境,也通过跟Autodesk合作将空间生成能力植入建筑与工业设计工作流,并且还将World API深度接入了NVIDIA的Isaac Sim机器人仿真平台,成为具身智能产业链中不可或缺的数据工厂。此外在影视、游戏等领域也在不断探索落地。
![]()
图片来源:NVIDIA
从商业化的路线上来说,World Labs更多的是“学术+前沿”驱动,更偏向于从基础模型建立空间智的基座,最终去打造一个通用的3D世界。而目前很多企业也瞄准了一些更为垂直的应用场景去做切入。比如黄晓煌告诉我们,群核在做空间智能战略的时候,更多的就是以“工程+产业”驱动,瞄准不同的应用场景去做产品创新。
![]()
因为群核科技是以空间设计软件酷家乐起家,所以他们的特点和相对优势就在于他们积累了海量的CAD/BIM数据,也就是那些真实的户型和房屋结构信息等,这些数据也让他们能够训练出更加贴近真实和“物理正确”的空间模型。
![]()
比如目前群核已经开放了两款空间大模型,包括用于空间理解的空间语言模型SpatialLM和空间生成模型SpatialGen。其中SpatialLM作为市面少有的空间语言模型,补充了大语言模型对3维空间的理解空白,2025年3月推出便登上了全球AI开源社区HuggingFace模型榜单前三。
而基于这套数据与技术底座,他们在酷家乐的智能化改造基础上先后推出了服务于不同行业的空间智能产品。比如面向具身智能与数字孪生的SpatialVerse空间智能训练平台,能够提供高保真空间仿真与合成数据,用来支持机器人训练、AR/VR内容与工业数字孪生;面向视频创作的LuxReal,依托群核自研的空间生成模型与物理真实渲染,可以产出时空一致的AI视频与数字内容,服务于影视短剧、广告、电商等场景;面向所有人的Aholo开放平台,具有开放空间重建、生成、编辑、理解四大能力,用以降低行业接入3D空间智能的门槛。整体上形成了从设计工具到产业底座、再到开放生态的完整空间智能产品矩阵。
![]()
如果去看群核科技的发展历程,就会发现他们似乎很会做“预判”。
2012年,当英伟达GPU还只是“小众硬件”的时候,他们就开始基于GPU来创业,接着踩中了房地产的上行周期,迅速占领了空间渲染和设计领域的市场,几年内就将营收做到数亿规模。
2018年左右,当时空间智能几乎处于无人问津状态的时候,他们便基于空间数据开始转向研究空间智能,接着快速推出了一系列服务于世界模型、具身智能的空间智能模型、工具和平台。
黄晓煌告诉我们,这背后是因为他们一直都是拿着“锤子”在找“钉子”。而在对话中,他也跟我们聊了群核是如何一步步找到商业落地切入点并且转向空间智能的经历。
![]()
黄晓煌博士毕业后就在英伟达从事CUDA的研究,那时候的GPU只能用来做一些基础的数学计算,很少有人会把它和“未来的计算平台”联系在一起。但他当时就觉察到,相比CPU,GPU这种Manycore多核架构才是下一代计算的方向,这也是后来群核科技名字的由来。
不过在当时,英伟达的经历并没有给他的创业加分,反而还一度成为了他融资的阻碍。而群核是如何从第一笔融资就几乎失败,到“杭州六小龙”的声名鹊起,再到如今成为六小龙中第一家冲击上市的公司呢?以下就是我和黄晓煌的对话片段。
04
陈茜:你当时在英伟达的时候看到了什么样的事情?你回国的时候想要去押注一个什么样的赛道呢?
黄晓煌:我当时在英伟达工作的时候,正好是英伟达最艰难的时候,当时游戏产业差不多在萎缩,所以台式机的显卡肯定也在萎缩。但是老黄提了一个理念,摩尔定律在CPU上已经走到了尽头,GPU因为它的Manycore的架构能够让算力持续地、更快地提升,所以以后它的速度和CPU比会越来越快。顺便一提,Manycore也是我们公司的名字。
我不知道别人相信不相信,我当时是非常坚信这一点的,因为我本来读PhD的时候就在研究这个。但是当时没多少人用,我费尽心思去推销给各个科研机构让他们去用CUDA,但是很费劲。后面我想那还不如我自己用,因为我有时候都得把demo写出来,证明给他们看效果很好。
后面我想太费劲了,还不如自己创业,因为我觉得这东西的底层逻辑、第一性原理是绝对靠谱的,所以我当时就自己实现了一个物理正确的渲染。因为当时非常慢,要大概一个小时出一张图,然后我就用GPU集群给它加速到10秒钟。当demo做出来之后,我就拿着这个技术2011年底回国,2012年就正式开做了。
![]()
陈茜:你那时候为什么不在美国创业?要回国创业。
黄晓煌:我的原型和第一个产品就在美国做的,也在美国融过资。但是当时美国正好遇到金融危机,再加上我们发现这个技术第一波最适合用的场景可能是建筑和装修设计,当时国内如日中天。
陈茜:所以虽然你走的是非常技术的路线,但是你把落地从一开始就想好了的。
黄晓煌:对,因为我们的创业其实不是那么的一帆风顺的,第一笔融资非常困难。我记得有一个很著名的基金跟我说,我跟我合伙人工作履历不太好。
陈茜:你跟你的合伙人工作履历不太好?
黄晓煌:你回到10多年前看,确实工作履历不太好。
陈茜:是因为他们不认可英伟达,觉得英伟达不是一个很了不起的公司?
![]()
黄晓煌:(觉得英伟达)马上要倒闭了。当然我们毕业学校不错,当时最流行的实际上不是技术公司,是O2O公司。你做任何东西之前,都需要在行业里混过、有行业经验的人。因为我们第一笔钱融的很困难。所以从第一天开始,我们做的任何产品都希望它能够想好落地应用,以及把行业的应用场景想清楚之后再去做。
因为我2012年一年基本没融到资,后面就把整个团队打造成落地跟技术两手抓,而不只是抓技术。所以我其实挺羡慕这几年硅谷这些公司的,可以融了资以科研为主。
陈茜:你最开始给投资人讲的一个愿景或者故事是什么样子的?因为那个时候你跟他们讲空间智能,他们可能还get不到。
黄晓煌:我们当时最开始还不是讲空间智能,我们讲的是把GPU做到云端去,做快速的、物理正确的渲染,但一分钱都融不到。后来有投资人朋友教我,反正技术你想做啥还是做啥,但你包装成家装O2O的故事,然后很快就融到钱了。
陈茜:所以你们第一轮融了多少?
黄晓煌:第一轮最早是我原来有个浙大校友王淮给了50万人民币,然后后面IDG投了200万美金。再之后我们第一个产品酷家乐出来,很快就爆了。原来你做一套图要花一星期,我们通过GPU集群实现了早期的这种自动设计,把整个过程尽可能的自动化,基本上几个小时就可以做完。一开始讲的故事是先吸引业主自己来设计,然后卖货,后面留下来的其实都是设计师用户。
![]()
图片来源:酷家乐
陈茜:所以最开始就是一个非常ToC的商业。
黄晓煌:最早是做ToC,一开始用户涨得很快,很惊喜,之后内部就开始很纠结,到底是你要做一个技术公司,还是去卖家具。纠结了很长时间,内部有两波意见,有些做运营的同事确实想直接去卖货。但因为我们三个联合创始人都做技术的,觉得这行非常不擅长,后面还是专注在提供技术为主,虽然收费收不了太多,但是反正我们觉得这是我们能够把握住的机会。
陈茜:后来你们第二波是什么时候?那个时候你们开始盈利了吗?
黄晓煌:第二波是2018年。我们其实2017年现金流就正的,是躺着赚钱的感觉。到2018年,我们就在想下一步的拓展方向,当时AI比较火,我们就开始投入做一些空间智能的前身。
陈茜:但是那个时候的AI跟现在我们说的AI还不是一回事吧?
黄晓煌:还不是一回事,那时候是小模型,只能做视觉识别,还谈不上智能。我们当时就开始用这些数据来做模型训练,但一开始训练了半天也不知道干什么用,就只能识别出来墙、地板等等。
我们后面还开源了一套数据集叫InteriorNet,有点模仿李飞飞的ImageNet,后来也开源了出来,找了很多教授来实验、探索,之后还确实发了不少CVPR这类顶级的论文,把空间智能的前身研究出来了。可以快速地通过一系列的图像把空间结构化抽取出来,有结构化信息之后,你就能理解它。所以那时候我们就开始往就空间智能的方向去转,当然中间有一些插曲,比如转了一半发现2020年房地产又大爆发了。
![]()
陈茜:当时怎么办呢?要回去做吗?还是继续往前走?
黄晓煌:我当时往AI这方面转了大概一两年,但收入起来没那么快,总的收入还不如房地产行业一单。因为我印象中很深刻是,当时有客户过来,啥也不说,先往你账上打了1000万,然后咱们再来谈合作。我说没谈成,我可以退给你的。他说没谈成,我不要了。我当时基本上眼珠都快掉出来了。
陈茜:哇塞,什么样的金主爸爸这么豪横?
黄晓煌:那个年代的房地产公司。回来之后我们CFO把我喷了一顿,说你这公司战略不能看今日头条来设计,这明显如日中天的行业,你苦哈哈地搞什么AI,你干了两三年还不如人家见面礼呢。
陈茜:所以你们当时AI的一些客户是谁?他们主要是用你们的服务做啥呢?
黄晓煌:当时找的都是硅谷的这些大厂,他们也是用来科研,当时还落不了地,应该都是大模型的前身,在做各种尝试,给他们的实验室用。像transformer等等各种的来实验,看看能训练出啥。2020年、2021年,原来老的赛道回光返照了一下,2022年就开始大调整。后面大模型出来了之后,我们2023年就把整个战略的重心调整到空间智能。因为它也能够服务我们老的业务,也能够让我们产品线更丰富。
陈茜:所以AI这条线你其实一直没有放,就一直抓着。
黄晓煌:它底层的引擎是借着AI这一波在升级,所以这肯定是要做的,只不过你投入多少资源做,比如说要采购多少GPU?花多少钱训练模型?预算怎么分配?
陈茜:怎么分配呢?你们在内部有一个非常明晰的分配逻辑吗?
黄晓煌:就吵架呗,我们几个创始人,还有一些高管、CFO之类的,主要看你对未来的预期。
陈茜:怎么样才算吵赢了呢?
黄晓煌:最终判断还是在我这边,但是我不是那种很会吵架的人。我会比较开放,听大家的意见。确实有的时候,在那个时代里面你其实挺难判断的。你是选择多投入一些在基础研究上,还是多投入一些在业务开发上?这是个很难的问题,没有绝对的对错。有的时候客户需求追得很紧,那你就得招很多人去做他的行业很细的需求,这时候你的资源就会在基础研究上减少。基础研究你觉得这个愿景很牛,但是什么时候能做出来还真不知道,做出来之后能不能变现也不知道,所以对于业务口子或者财务口子就觉得压力很大,你不能创业不考虑大家死活。所以得在两者之间找一个平衡。
陈茜:不光是创业公司,在大企业里面也是大家都是要去抢卡、抢钱、抢人才、抢资源。你有没有一个自己的哲学,怎么去平衡这两边呢?
黄晓煌:我实际上是非常站在这个抢人才、抢卡这一边,积极地创新、探索。
陈茜:所以你还是非常工程师、非常科研思维导向的这样的一个模式。
黄晓煌:是的。当然我也知道,按照我这思路做下去,可能钱没赚到就挂了,所以我们公司有一波主管是管业务的,他们就会以客户导向。但是客户肯定只关心眼前的需求,纯客户导向也就不会去想得出变革式的东西。
我们定位还是一家商业化公司,也不是一个科研机构。我们在做模型的同时,虽然目标设得比较远大,希望空间智能最终还是能够跟人类一样去理解我们的空间,去做推理,但是这个过程是很漫长的。你看自动驾驶做了十多年才完成了一个事情,所以在这段过程中,我们也不太希望像自动驾驶公司一样长期靠资本养着,我们还是希望能够养活自己,所以我们很快就转向空间智能,去年也盈利了。
我们会把它过程的能力想办法用在各行各业,除了我们老的行业,我们希望能够用空间智能技术去生成场景。比如说我这边拍张照片,把整个场景生成出来,我就可以做重新地改造跟设计。虽然它不是直接用在机器人里面,但是底层的算法是一模一样的,我们也把同样的方式用在类似于短剧的制作、电商的制作。
我们内部天天也在头脑风暴,以我们目前的能力,能应用在哪些地方?而不是只有达到100分了,才去商业化落地。最终肯定是瞄准了机器人普及之后,我们给机器人去使用,它在我们环境里面工作,它得快速地把空间重建出来,在里面行动。但在这个过程中没达到这程度的时候,我们拿可以拿它干什么?我们花了很多心思在研究。所以我觉得公司经营久了,就得在两者之间取一个平衡。
陈茜:你刚刚说到2022年你们开始大调整,发生了什么?
黄晓煌:2022年我觉得是让人非常难忘的一年,包括国家政策调整,年底大模型出来,像印象很深的ChatGPT、Midjourney,每天都是信息爆炸的感觉。
![]()
图片来源:OpenAI
陈茜:ChatGPT刚刚上线那段时间对你来说震撼吗?
黄晓煌:对我来说还是非常震撼的,相关的技术我2020年就有在看了,但是当时看到这论文就瞄一眼,也没认真看,觉得这好像没什么。但是出来之后,这种类似人类的智慧,能够通过更多的数据、更长时间、更大规模的训练而产生,这还是有点颠覆我当时认知的。那段时间,因为疫情也还没结束,所以我天天也在看论文,自己在做实验,感觉我们原来老的那一套发展路径得彻底转方向了。原来的理念是做一个简单的工具,提高人的效率,但现在就变成直接把人给替代掉了。所以肯定整个工具链的做法、体系的做法已经完全不一样了。当然也很焦虑,它会变成什么样子,你完全不知道。所以当时就一直关在家里面,一边看文章,一边自己写代码、做实验,也在想未来怎么办。那段时间我觉得一是有点恐惧、有点焦虑,二是也很兴奋。
陈茜:所以是大语言模型、ChatGPT出来对你的震撼更大,还是diffusion(扩散模型)那一波对你出来的影响更大?
黄晓煌:我觉得对我影响更大的是,我们过去信仰的都是通过更聪明的人写算法、做实验,这算法写得很精妙,就非常聪明、能力很强。但不管是ChatGPT还是Midjourney,给我的感受都是,数据量越多,它就越智能、越聪明,这完全改变了我原来对于算法的认知,所以对我的冲击是非常大的。
陈茜:那之后你在公司里边做了什么样的调整呢?
黄晓煌:公司里基本上2023年开始,我们方向就调整成这种智能的方式,现在叫空间智能。原来很多靠人工在做的、在开发的东西,我们都希望通过模型跟算法来实现。原来的产品形态从辅助性的工具,我们也逐步希望它能够代替人来完成任务。
陈茜:那就是产品方向的调整,你们整个的路线也会发生变化,以及服务的客户其实也会发生变化,对吗?
黄晓煌:对,这里面一个巨大的变化。过去2022年之前,我们认为公司的增长核心是产品。2022年之后,2023年左右,我们突然意识到公司的增长核心是算法、是模型,就是它躲在产品下面的底层能力,实际上才是公司的真正的壁垒跟驱动力。所以资源就开始要快速地调整,我们在这种模型训练的实验室就加了很多人。
陈茜:OpenClaw给你带来什么样的启示吗?
黄晓煌:我一直在思考,我们内部也在推出一些针对OpenClaw的skill。但我主观的感觉是以后用工具的人、用软件的人会变少,他会硬件接着模型直接用。所以你的收费模式肯定不能是按SaaS的收费模式,而是按token、按量付费的收费模式。还有就是硬件很重要,因为你会发现这一波随着AI自动能够写代码,我们操作硬件会越来越简单。
未来是一个多硬件终端的世界,你的眼镜、你的机械臂、你的各种摄像头等等的都拥有智能,都能够干一些活。可能未来你报警只要对着监控摄像头打一个手势,就可以报警了,你不需要键盘,不需要电话。所以所有的物理设备都是输入,就不再像过去只有手机跟电脑,那这时候你得把能连接的物理硬件全部衔接了。
因为我们也经历过激烈的竞争,我们当时做家居产品的时候,做工业4.0,我们连接了所有的硬件设备。当遇到激烈竞争以及大模型的冲击之后,我们发现:如何连接所有的硬件设备,如何去准确地操作硬件设备,这一块是大模型几乎涉及不到的。它没有办法离开物理世界,自己在一个电脑上跑,这波AI我觉得反而是受益方。但是你如果能够锁定在一个电脑里自我完成闭环的东西,我觉得就很危险。所以我们战略也在调整,我们把连接所有的物理设备,连接物理世界作为我们核心战略,然后把工具这块就弱化了。
陈茜:整个3D生成还有渲染还是需要非常多算力去支持的,你觉得在卡或者是整个的数据中心之上,有没有什么样的技术手段去优化整个的算力需求量?
黄晓煌:目前空间智能或者说具身智能这个板块,它所用到的算力实际上远不如大语言模型。因为它的数据量并没有那么丰富,困扰大家的还处于数据这个阶段。目前卡是够的,是数据不够。未来当你解决了数据量的问题之后,那卡肯定是不够的。当然对于任何公司来说,比如我们,卡永远都不够。我来出差前还在协调同事训练排队的问题,是你先训练还是我先训练?为什么你先?
![]()
陈茜:公司内部会抢卡?
黄晓煌:那必然的,我也不可能无限给卡。比如说你卡多的话,你可以同时做好几个实验,那其他人就有意见了。你做了四五个实验,我还要等你训练完我才能训练,那就让你停掉一个,就会各种吵来吵去的。所以我觉得卡是永远不够的,这就看你要怎么算这个经济账。比如说竞争很激烈,你不比别人快一点,你就要死了。那就没有什么经济账可言,你能买到就拼命买卡。但是如果你算好ROI,你是要做一个健康的商业模型,那你训练成本占营收多少?你得有一定的尺度。
陈茜:你的尺度是什么样子的?你怎么去算这个事情?因为你们上市了之后也要跟股东交代,你也不可能把所有的现金全都拿去买卡跟做研发,你自己是怎么去看这个事情?
黄晓煌:我目前希望买卡或者租卡的算力投入控制在10%左右。如果一定要用的就买,波动的就租,目前我们这么定的。但这也看竞争情况,比如说一个竞争对手跟你死磕,他的卡很多,你就比他慢,我不投入会死的,那我肯定是大投入了。
陈茜:你们现在觉得最强大的竞争对手是谁?
黄晓煌:我觉得空间智能这块我们还没有,大家还都在探索落地案例的情况下,还没到你死我活的竞争。因为我们是经历过各种你死我活的竞争的,我觉得那种阶段成长反而是快的。像现在这种阶段你就没有办法,没有那种可以放弃一切all-in在一个点上的感觉。天天在精打细算,算力能省点钱,代码优化一下、速度快一些等等。
陈茜:你觉得在这个产业里面,你们的护城河最重要的能力是什么?
黄晓煌:早期我们觉得护城河是工具、数据跟算法模型是循环发展的,但实际上最近一年随着Claude Code,还有最近OpenClaw火了之后,我们内部也在升级。我觉得光有工具、数据、模型还不够,得连接硬件,不是说你自己要有硬件,是你得连接硬件,得紧贴着物理世界。硬件连接的模型、算法、工具可能不一定是壁垒了,但是你的模型、硬件、数据肯定是还是壁垒,所以这个是时代在发生的一个巨大的变化。我觉得贴着物理世界能活,纯虚拟世界,我感觉就几个巨头在卷来卷去。
05
就像黄晓煌所提到,虽然现在无论是World Labs,还是群核科技,都在积极地去探索空间智能的应用,但从整个行业发展的角度来说,空间智能仍然还停留在比较早期的阶段。制约它发展的原因有很多,但如果要找一个最直观、最现实的瓶颈,那就是数据。
和语言模型只需要“文字”不同,空间智能对数据的要求是多模态、多维度的。最基础的一层是视觉数据,比如来自摄像头的图像或视频。但这还远远不够,模型还需要深度信息,也就是场景中每一个点距离传感器有多远;需要语义信息,即画面里每一块区域对应的是什么物体。在很多应用场景下还需要点云数据,用激光雷达扫描出的、由数百万个三维坐标点构成的空间结构。
![]()
更重要的是,这些数据必须是对齐的。单独一张图片,或者单独一帧点云,对空间智能的意义都很有限。模型需要的是图像、深度、语义标注在时间和空间上精确同步的数据。也就是说同一个场景,从多个角度、在不同时刻、用不同传感器同时记录下来,再经过精确的标定和对齐,才能成为真正可用的训练素材。
这还只是静态场景的要求。如果涉及机器人操作或动态环境理解,数据里还需要包含物体的运动轨迹、交互过程、乃至力反馈信息。所以说,空间智能所需要的数据是对真实世界的全方位、高精度“切片”。
在对话中黄晓煌就谈到,这样的数据非常难获取,一是缺乏获取的渠道,二是数据标注的成本也非常的高,仍然需要大量的人工参与。
陈茜:在空间智能上,现在在技术方向上面临的最大挑战是什么?
![]()
黄晓煌:我觉得目前这个领域最大问题是,缺少像大语言模型那样大量的、免费的开源数据。因为像图片、文字什么的直接到互联网上扒就好了,这种空间的数据第一是网上没有,第二是还有很多隐私版权问题。
比如说我们把这空间拍摄下来,放到互联网上,我估计还要征得这房东的同意,那有这么多房主,就没有办法规模化了。空间数据可以理解成点云,它每一个点都有三维坐标信息、有色彩信息,当然附上更多的信息,就更重要了。
陈茜:所以这个东西是在互联网上面没有的。
黄晓煌:有,但很少,我们也开源了一些,但非常少。
陈茜:是不是AR眼镜这些穿戴设备普及之后会有一些帮助呢?
黄晓煌:关键是它这些数据能不能免费发到网上?这就比较难。而且它还有一个难点是要做信息的标注,不是说我有三维数据就够了,还要有很准确的标注信息。比如说这是一个椅子,如果没有标注信息就没法训练。
陈茜:比如说在智能空间里面生成的数据直接可以给机器人用吗?
黄晓煌:这取决于这机器人公司用的技术栈是什么,有些机器人它根本不跟物理世界做碰撞的,只是做纯视觉的,那我们的数据就sim-ready(仿真就绪)了,它就直接可以用。比如说巡逻机器人,它只要看见一个什么东西报警就可以了,它不会去做真实的交互。
当你要做真实交互的时候,它就要有物理信息了。我们自己内部也训练了模型,去猜它的物理参数。比如说猜是金属,那它的参数是什么?猜是布料,那它的参数是什么?就会去猜。但是猜完之后你要高质量的数据,还是需要很多的人工去校验。所以对于高质量的数据的话,全自动生成我觉得目前看起来还不够,还是需要有很大的人工参与在里面。
陈茜:人工参与是什么样子?比如说有些网络视频,或者视频模型生成的东西也没有办法直接用吗?
黄晓煌:网络视频用来训练的话,它只能训练一些基模或者低质量的能力,最终它如果想拿起杯子,肯定是要在三维数据上做训练的。你想它握起一个杯子的话,就得有无数的杯子去训练它,你得见过无数的杯子,下次你看到杯子的时候才知道哪里是把手去拿它,包括杯子的质量、材质、摩擦力等等都有相关。人一看到杯子,大概都能知道是玻璃的还是金属的,能猜得出它的质量,但是我们在训练模型来给它做标注的时候,还是要人工检测。有的公司要求数据非常精确,还得去做实验,比如说这款玻璃我一定要测出它的摩擦力,或者某一个杯子我一定要测出它的准确质量,精确到克,那就只能去真的去采集了,就很费劲,成本就高了。
所以不同的客户实际上他的需求是不一样的,但我们基本的能力就是去重建跟生成这个三维世界,重建完之后,我们的空间理解模型可以去做标注。但这标注能不能达到甲方的需求?这里面还有一个扯皮的过程,还需要沟通的。
![]()
陈茜:你觉得这是能解决的问题吗?
黄晓煌:肯定能解决,只不过代价多大。现在通过人工也能解决,我们想做一个机器设备来采集,我觉得也能实现。但比较遗憾的是,物理世界的信息是无穷无尽的,采集的质量、摩擦力这种信息都是最低要求,还有手感、捏上去之后会不会变形、变形的地方是不是均匀的等等各种参数,这些参数怎么取就很复杂了,要采的数据就太多了。
所以物理世界真的是挺复杂的,随着大模型空间智能的不断深入,能探索的东西我觉得只会越来越多。但是可见的将来估计是没法穷尽的,所以简单的先处理,复杂的就只能慢慢来。我们觉得我们也只能解决一部分,也没有办法解决全部的问题。
空间智能的数据问题,还不只是“不够多”这么简单。现有的三维数据集在分布上存在严重偏差,比如自动驾驶的数据高度集中在晴天、白天、一线城市的标准路况;室内数据大多来自整洁的实验室或标准家居等。但一旦遇到暴风雪中的山区公路、地板上散落玩具的真实房间,模型的表现往往急剧下降。也就是说,真实世界的“长尾”太长,靠堆数据很难覆盖完。
![]()
但如果追问下去,数据困境本身还有一个更深的根源,那就是我们至今没有找到一种好的方式,让机器像人类一样去理解空间。人类对空间的认知是通过身体与世界的持续互动,在大脑中逐渐涌现出来的。今天的空间智能模型,本质上缺少的,正是这种与生俱来的物理先验,数据是表层的瓶颈,而如何赋予机器空间认知的底层直觉,才是这个领域真正悬而未决的核心难题。
虽然要真正实现空间智能还有非常多的难点需要去攻破,但在黄晓煌看来,就像当年英伟达的GPU一样,在我们走向空间智能的过程中,也一定会不断解锁出很多意想不到的、有意思的应用。
黄晓煌:黄仁勋在今年GTC上也讲了CUDA 20周年,我就是第一批去开发CUDA的人。我当时开始研究这一块,最早只能用来算算数学、做个数字的排序、解解方程、算算矩阵,到现在看到人工智能这么普及,但是它底层还是这些算法。所以感觉人类的智慧是一层一层搭积木一样搭上去的,而且越搭越高,再往上会出现什么?值得我们去想象。虽然我们现在做空间智能,也是感觉真正普及需要3到5年的时间,但是是会有各种各样超乎想象的东西会出现。
![]()
图片来源:NVIDIA
陈茜:感觉现在只是一个起点而已。
黄晓煌:是一个新的起点,我觉得这个赛道上每3到5年都相当于一个全新的起点。你回过头来看,从我刚回国的时候,当时只能做简单的数学运算,所以出现了挖矿,然后5年后第一波,当时做视频监控的那批AI起来,然后又过了5年就到现在大模型出来了,再过5年就不知道会出现什么,我觉得挺期待的。
陈茜:你每年都来看GTC,你觉得英伟达的整个的成长路线,包括黄仁勋怎么去带领英伟达,对你来说有什么启发吗?
黄晓煌:我创业的过程很受英伟达这种模式的影响,因为我工作过的也就这一家公司,所以它这个模式我觉得还是值得我们学习的。
首先是第一性原理,比如GPU的架构能够突破摩尔定律,当年我们在做这个的时候,虽然我们知道肯定会算得很快,但是我也不知道干什么用,所以会在不断地找应用,现在就叫“拿着锤子找钉子”。所以我们在自己创业的时候,我们的方法论也是先找到一个你相信一定能够改变世界的东西,这东西会比较通用,然后你再去找应用,比如说英伟达最早用在游戏行业,听起来都觉得不太正经的,但现在每家公司都需要他们,它就是有这么一个过程。
我觉得公司得先活下来才有未来。比如英伟达做的是高性能计算,用在游戏行业只是先活下来,之后救了它的是挖矿,后面才有大模型。所以像空间智能一开始能用在哪些领域?我觉得房地产领域是一个非常好的赛道,最终只要我们物理世界还存在,空间智能就一定会发挥它巨大的价值的。
所以反正你只要相信这一点,相信有一天你的电脑也能够跟我们人类一样,在物理世界里面自由地活动、自由地干活,那空间智能是一定需要的。你只要相信这一点,你就慢慢做,反正啥机会来了你就凑上去,把业务扩大。如果机会没了,就慢慢等。反正现在公司做到这阶段,我觉得至少对得起自己,但能不能再往上几个台阶就看命了。
所以就像黄晓煌谈到的,如果把时间拉长来看,空间智能更像是一次必然发生的跃迁。
就像GPU最初只是用来做图形计算,后来一路走到AI基础设施的位置一样。今天我们还很难完全看清空间智能最终会长成什么样,但可以确定的是,它一定会在某些意想不到的地方,先找到自己的“第一个爆发点”。这个“爆发点”也许是房地产,也许是游戏,也许是机器人,甚至是我们今天还无法想象的应用场景。
但只要AI有一天真的要走出屏幕,进入到真实世界,那空间智能就不再是一个“可选项”,而是一个绕不过去的基础能力。关于接下空间智能的研究的进展,以及更多的落地应用我们也会持续追踪。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论