机器人将入驻真实家庭，自变量机器人下月“入户”实习-钛媒体官方网站

4月21日，自变量机器人在京发布基于世界统一模型架构的具身智能基础模型 WALL-B，并宣布搭载该模型的新一代机器人将于35天后正式入驻真实家庭。

自变量创始人兼CEO王潜直言，当前机器人的核心瓶颈已不在硬件本体，而在“大脑”。“硬件已经到位了——双足、灵巧手、力控关节都很好”，但面对猫突然跳上桌子、孩子把玩具扔在不同角落这些随机事件，现有技术无法处理，机器人进入家庭也被视为“这个时代最难的技术问题之一”。

据了解，过去较多机器人采用的具身智能模型往往采用传统VLA（视觉-语言-动作）架构，这种架构下，视觉模块、语言模块、动作模块各自为政，数据在模块之间搬来搬去，每搬一次就丢一次信息，而机器人通过视觉信息“学”到的丰富信息，传到动作模块时只剩一个模糊的摘要。而其此次发布的模型采用世界统一模型WUM架构，该架构下，模型将视觉、语言、动作、物理预测等所有能力，放在同一个网络中从零开始联合训练、融为一体，消除模块间的边界和数据搬运损耗。

基于这一架构，WALL-B具备三大特征能力：原生多模态，让机器人在看到杯子的同时就能准备伸手，感觉到重量的同时就已经在调整力度，并拥有内生的“本体感”；物理世界的“世界观”，使其能够感知并预测重力、惯性、摩擦力、速度等基本物理规律，例如在面对盘子半悬桌沿时能预判坠落风险；自我进化，机器人在失败后会调整策略，并将成功经验直接更新到模型参数中。

这种机制使模型在真实环境中完成自我迭代，无需工程师重新训练、无需人工注入新数据、无需返回实验室。王昊将其类比为人类学习使用筷子的过程——筷子掉了无数次，但每一次失败都在调整手上的控制，最终形成稳定的技能。

针对入户最敏感的隐私问题，王潜也给出了方案：视觉脱敏——机器人在设备端对原始图像进行实时打码处理，原始图像不离开设备，机器人看到的已经是去除个人特征的场景数据；透明授权——用户主动按下同意键后方可开机，不存在“默认同意”，用户不同意则不开机；用途限定——不共享第三方，机器人只认一个主人，发现可疑指令立即锁定。

王潜表示，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现 24 小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。发布会当天，自变量开启了首批机器人“家长”的招募。

此前，在机器人应用方面，自变量与58同城合作，让搭载上一代模型的机器人与保洁阿姨协同作业，实现全球首次机器人进入家庭，并服务人类复杂的家居生活，这也是首次机器人在消费端复杂环境的批量落地。