4月21日,自变量机器人在京发布基于世界统一模型架构的具身智能基础模型 WALL-B,并宣布搭载该模型的新一代机器人将于35天后正式入驻真实家庭。
自变量创始人兼CEO王潜直言,当前机器人的核心瓶颈已不在硬件本体,而在“大脑”。“硬件已经到位了——双足、灵巧手、力控关节都很好”,但面对猫突然跳上桌子、孩子把玩具扔在不同角落这些随机事件,现有技术无法处理,机器人进入家庭也被视为“这个时代最难的技术问题之一”。
据了解,过去较多机器人采用的具身智能模型往往采用传统VLA(视觉-语言-动作)架构,这种架构下,视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息,而机器人通过视觉信息“学”到的丰富信息,传到动作模块时只剩一个模糊的摘要。而其此次发布的模型采用世界统一模型WUM架构,该架构下,模型将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。
基于这一架构,WALL-B具备三大特征能力:原生多模态,让机器人在看到杯子的同时就能准备伸手,感觉到重量的同时就已经在调整力度,并拥有内生的“本体感”;物理世界的“世界观”,使其能够感知并预测重力、惯性、摩擦力、速度等基本物理规律,例如在面对盘子半悬桌沿时能预判坠落风险;自我进化,机器人在失败后会调整策略,并将成功经验直接更新到模型参数中。
这种机制使模型在真实环境中完成自我迭代,无需工程师重新训练、无需人工注入新数据、无需返回实验室。王昊将其类比为人类学习使用筷子的过程——筷子掉了无数次,但每一次失败都在调整手上的控制,最终形成稳定的技能。
针对入户最敏感的隐私问题,王潜也给出了方案:视觉脱敏——机器人在设备端对原始图像进行实时打码处理,原始图像不离开设备,机器人看到的已经是去除个人特征的场景数据;透明授权——用户主动按下同意键后方可开机,不存在“默认同意”,用户不同意则不开机;用途限定——不共享第三方,机器人只认一个主人,发现可疑指令立即锁定。
王潜表示,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现 24 小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。发布会当天,自变量开启了首批机器人“家长”的招募。
此前,在机器人应用方面,自变量与58同城合作,让搭载上一代模型的机器人与保洁阿姨协同作业,实现全球首次机器人进入家庭,并服务人类复杂的家居生活,这也是首次机器人在消费端复杂环境的批量落地。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论