文 | 硅基星芒
翻开任何一家科技媒体的版面,人形机器人融资的消息铺天盖地。2026年被冠上“具身智能元年”的名号,资本排着队为它买单。
但走进一家具身智能公司的研发中心,你会看到另一番景象。
没有科幻电影里的自主行动。没有优雅的人机对话。操作员戴着VR头显、穿着动捕设备,拿着遥控手柄,一遍遍操控机械臂去拿杯子、叠衣服。一次不行就十次,十次不行就一百次。每一段训练数据背后,都站着一个活生生的人。
这就是当前具身智能最粗粝的现实:它建立在人力密集型的数据采集之上。每一台机器人的每一个动作,都要靠人“手把手”教出来。
资本在狂欢。行业内部却藏着一根拔不掉的刺:如果机器的智能只能用人力堆出来,这个成本结构永远撑不起“走进千家万户”的梦想。
2026年央视春晚,一家叫银河通用的具身智能公司短暂亮相,随后又回到实验室的安静里。它的最新论文《LDA-1B: Scaling Latent Dynamics Action Model via Universal Embodied Data Ingestion》提出了一个足以改写行业底层逻辑的命题:打破对“完美数据”的崇拜,先理解物理,再学习操作。署名单位里躺着英伟达、清华和北大。
![]()
具身智能尚未建完的护城河,可能正面临一次剧烈的改道。
照猫画虎,画不出真老虎
市面上绝大多数机器人大模型走的是同一条路:行为克隆。说白了就是照猫画虎。人类专家留下几万条完美的遥操数据,AI从画面里提取特征,预测人类在每一帧做了什么动作。这套方案直观,见效快,很快成为主流。
但它有个致命伤:天花板极低。模仿这件事,从一开始就规定了模型能力的上限不会超过示范者。如果AGI的目标是超越人类平均水平,走这条路看不到出口。
更麻烦的还不是天花板,而是地板。
技术圈管这叫协变量偏移。听上去抽象,道理很简单:电机会老化,齿轮有间隙,光线会变化,这些对机器人全是噪音。纯靠模仿训练出来的机器人,执行动作时产生的微小误差会立刻让摄像头画面偏离训练数据的分布范围。模型没见过这场面,不知道怎么纠正。误差滚雪球,动作崩溃。前段时间机器人马拉松赛场上突然冲向观众席的画面,就是协变量偏移的公开注脚。
银河通用这篇论文选了另一条路:抛弃条件反射式的模仿,走世界模型路线。
大语言模型之所以脱胎换骨,是它在海量文本中摸透了语言的底层规律。机器人也需要同一层理解:动手之前,先懂物理世界的因果。LDA不再只预测下一个动作,而是联合预测未来的画面。下达指令之前,模型必须先在数字大脑里推演一遍:推过去,水杯会怎么动?重力和摩擦力会起什么作用?
这一步位移的实质是:先有知识(理解世界规律),再有应用(学习如何操作)。因果顺序不可颠倒。
![]()
别跟像素较劲
要预测未来,得先想清楚预测什么。
Sora和各类生图生视频模型给行业提供了一个看似现成的答案,方向上却正好相反。你大概注意过,AI生成的图片和视频里,文字部分总是出现扭曲的乱码。原因不复杂:这些模型本质上是用概率拼凑像素。它们没“看懂”文字,只是记住了某种颜色在某个位置大概率会和另一种颜色挨在一起。
人眼里的一杯水、一个苹果,拍成照片就扁平化为RGB色块的排列组合。早期的世界模型正是在“预测未来像素”这里犯了错。让机器人大脑去猜下一帧的像素长什么样,算力大量浪费在机械臂影子怎么动、杯子反光怎么变、背景墙纸有多少纹理这类无意义的细节上。全是高频噪声,全是对环境的过敏反应。
LDA选择离开这个像素空间。
它用视觉基础模型DINO,在输入画面进入预测网络之前,先剥掉无关光影和背景,提取出高度抽象的语义空间。它不再纠结下一帧里百万个像素的颜色,而是试图理解一个等式:“杯子的语义”加“推的动作”等于“杯子向右位移”。
![]()
“不看细节,只关注语义。”反常识,却管用。同等模型规模下,基于像素预测的老方案成功率14.2%,切换到语义空间后,这个数字跳到55.4%。商业上的含义更直接:昂贵的算力集群不用再把电烧在光影模拟上,成本大幅压缩,模型的跨环境稳定性却显著提升。
完美数据是一种迷信
这篇论文对行业冲击最大的地方,在于它打碎了“完美数据崇拜”的商业幻想。
目前机器人的训练逻辑基本搬自大语言模型。过去三年,大模型领域反复验证一条铁律:逻辑混乱的文本、有害代码这类低质语料会污染模型。Garbage in, garbage out——吃进去的是垃圾,吐出来的也是垃圾。机器人企业自然照单全收:花重金请专业操作员,录接近完美的数据,这是能力突破的前提。
但物理世界的数据逻辑和文本世界不一样。
在真实世界里,失败本身就是物理规律最完整的演示。机器人抓空水杯、碰倒物体、操作失误后重试,这些在传统算法眼里是应该扔掉的垃圾数据,因为它们没有展示“如何完美地完成任务”。但这些过程同样严格遵循着重力、摩擦力和碰撞定律。
只见过高质量数据的机器人,像无菌温室里养大的植物,一离开完美环境就活不下去。多数具身智能企业把家庭环境当作第一商业化目标,但真实家庭的混乱程度远非这种机器人能应付。一丝偏差就死机。
LDA提出的通用数据摄取机制,改写的就是这笔经济账:有潜在危害的数据,剔除;海量低质量、无标注的野生数据,比如网上随手拍的短视频,变废为宝,喂给世界模型,让它从这些看起来没用的素材里学习物理世界的常识和边界;极度稀缺的高质量专业操作数据,只在最后微调阶段用——此时机器已理解物理规律,只消高效选择策略。
![]()
测试数据给了一个耐人寻味的佐证:微调阶段,往完美数据里混入30%包含停顿和失误的低质量数据,机器人的执行成功率反而提升10%。模型从中学到了一件事:原来这么干会搞砸,搞砸之后可以这样补救。
那些正烧着投资人的钱、组建成百上千人团队、雇全职员工“人肉采集数据”的公司,护城河还没建完,河床已经开始移动。未来几年的核心壁垒,不再是谁花钱买到了更多完美数据,而是谁有更强的一套管道:低成本收海量粗糙数据,从中压榨出物理常识。成本结构上的断层领先,将从这里长出来。
GPT时刻还远
2026年被不少人称为具身智能元年,“GPT时刻马上就要到来”的声音此起彼伏。
冷静的商业观察者不会轻易附和。
假设具身智能要走大语言模型同一条强化学习路径,核心三要素不变:算力、算法、数据。文本数据是人类几千年文明的数字化沉淀,今天无论OpenAI还是DeepSeek,获取几万亿token不是难事。物理世界的交互数据则困在莫拉维克悖论的底部,还处在手工作坊时代。底层数据基建没成型,通用智能就是空中楼阁。
LDA-1B这类研究给出的不是一个“无所不能”的成品,而是一个方向正确的路标。这比立刻推出一款宣称通天的机器人更有价值。
它终结了盲目模仿的范式,指明因果联系与世界模型的必要性。像素层面的算力浪费被语义表征替代。最关键的,它颠覆了昂贵的高质量数据采集模式,开辟了一条低成本、变废为宝的数据扩展路径。
放下对完美数据的傲慢,让AI从粗糙和失败中汲取真实世界的物理法则。路还很长,但方向已经看见了。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论