不做遥操作、不采真机数据，这家公司的机器人靠学习“人类第一视角数据”干活

“具身智能目前陷入动作模仿的泥潭，环境或任务一旦改变，技能就有很大可能会失效。只有让机器人像人一样，先理解物理世界，再执行具体任务，才是真正给机器人装上一个大脑。”深度机智创始人陈凯向智客ZhiKer表示。

2024 年底，陈凯率先提出“AnthroLearning”（人类学习）路线时，几乎没人相信。这位人工智能领域深耕十五年，曾任职微软亚洲研究院首席研究员、主导产品年调用量达千亿次的科学家，得到的反馈是沉默，甚至质疑。

彼时，具身智能的主流技术路线是遥操作，让人类戴着设备控制机器人，记录每一个动作轨迹，再让机器人反复模仿，或者用互联网视频、仿真数据训练。这些方法的逻辑很直接，让机器人“背”会动作。

但这条路线存在明显局限。陈凯认为：“这些主流技术路线的本质上是在“手把手教猴子干活”，效率低下，真正的突破口在于通过人类第一视角数据向大脑注入物理常识，让猴子进化成人。”

转折来得比预期更快。

2025年5月，硅谷有具身智能企业开始转向人类第一视角数据。也是在这个月，陈凯与同是毕业于中科大少年班学院的张翼博共同创立了深度机智。

去年年底，深度机智联合北京中关村学院率先使用1000小时人类第一视角数据训练出的PhysBrain基座模型，展现出令人惊艳的结果。在“把胡萝卜放进盘子”任务中，机器人的夹子碰到胡萝卜时选择了像人一样推动胡萝卜，让它滚入盘中，在多次尝试后发现盘子边缘过高无法推入后，主动转变策略，改为夹取，夹一次没进去，又修正夹取换角度和力度，最终成功。这种灵活性是无法通过预编程实现的。也就是说，机器人自己“涌现”出了变通与纠错能力。

智客ZhiKer与深度机智创始人陈凯、联合创始人/CEO张翼博进行了一次对话，试图回答：为什么是 2026 年？为什么是中国？这条路线收敛之后，产业会发生什么变化？

以下为与陈凯、张翼博的对话全文，略有删减：

智客ZhiKer：2024-2026年，具身智能行业在技术路线上经历了什么？为什么你在2024年底提出的“人类学习”路线，到2026年初就成了行业共识？这个收敛速度是你预料之中的吗？

陈凯：这个收敛速度比我们预期的要快。我们在2024年底提出“AnthroLearning”（人类学习）概念的时候，这条路线非常有争议，因为当时大家讲的还是遥操作、真机、仿真、互联网视频，根本没有人类第一视角。

转折点发生在2025年5月。特斯拉宣布Optimus会逐渐放弃动作捕捉和遥操作数据，转为从人类第一视角数据去学习机器人的技能。6月，原Google DeepMind科学家Andy Zeng创办的Generalist AI发布了机器人拆解积木的Demo，机器人在将积木块放进盒子时，采用的是扔的动作，表明他们也在直接从人类数据学习。

这种对物理交互的灵活运用，恰恰是传统真机轨迹拟合难以企及的。至去年底，Skild AI、Physical Intelligence、NVIDIA等硅谷做具身智能的公司都在向“人类第一视角数据”看齐，在硅谷基本已达成共识。

张翼博：各个大厂在春节前后相继组建新的团队，今年3月份之后，这条技术路线开始受到大家追捧。我们预测，2026年会是“AnthroLearning”（人类学习）的元年。

智客ZhiKer：遥操作、真机、仿真、互联网视频学习等，这些技术路线的问题出在哪里？

陈凯：大家不管是走VLM（Vision-Language Model）、VLA（Vision-Language-Action）还是世界模型路线，每一家都在强调自己在这条路线上积累了多少数据、模型设计有多好，最终都会卡在一个点上，就是基座模型缺乏物理常识。

VLM模型不理解空间，不能够理解时序。譬如，桌子上面放了几个杯子，它数不清有几个，对于人来说轻而易举的事情，对于模型来说非常难，所以有人专门去做增强模型的空间智能。世界模型或视频生成模型，生成的内容在视觉上可以乱真，但是运动的真实性或者物理真实性就比较差。

而“人类第一视角数据”采集自真实物理世界，天然蕴含空间理解与交互过程。我用一个更直白的比喻来解释：现在的轨迹拟合方式就像是在手把手教猴子干活，教它洗菜、做饭、洗碗。但是猴子完全不理解人类社会的常识。我们要做的是先赋予物理常识，让它进化成人，再让它学习特定技能，这比手把手教动作高效得多。

张翼博：真正的突破在于物理常识的注入，不是简单的轨迹标注，是对任务的深层理解。比如开矿泉水瓶是什么，先做什么后做什么，这些维度的标注门槛极高，这是人们习以为常的下意识行为，属于智能的“暗物质”。

智客ZhiKer：PhysBrain 与英伟达的技术路线对比如何？有观点认为，深度机智在这一方向上已有先发优势，你们怎么看？

陈凯：从时间线上看，我们两家的技术管线搭建几乎同步。英伟达2026年2—3月公开方案，我们2025年3月启动预研、6月搭出数据管线。不同之处在于，英伟达专注手部轨迹预训练，我们直接增强VLM本身。最终都收敛到用人类数据增强物理直觉，按进度和投入判断，我们略领先英伟达。

具体而言，我们围绕数据怎么转译、架构怎么设计、训练目标怎么设定三个环节，搭建出一套全栈矩阵，把视频中的隐性经验提取成结构化监督信号，任务怎么拆解、关键状态是什么、手该怎么动、物体之间有什么约束、时空关系是怎样的。

Egocentric2Embodiment翻译管道的核心是把人类第一视角视频转码成机器人能学的结构化教材，通过多层次拆解任务规划、关键状态、手部动作和物理约束，确保时序逻辑连贯且每个判断都有画面证据支撑，最终输出带标准答案的VQA监督数据。确保机器人知其然也知其所以然，而非瞎猜。

利用这套方法，我们构建了数据集E2E-3M，并训练出具身大脑PhysBrain。在完全未出现在训练集中的SimplerEnv四个操作任务上，PhysBrain（8B版本）以67.4%的平均成功率力压行业标杆Physical Intelligence的Pi0.5，领先优势达10%。

智客ZhiKer：PhysBrain的“涌现能力”具体指什么？能否举例说明？

陈凯：涌现能力体现在模型对物理交互的直觉式理解，而非机械执行预设动作。

在SimplerEnv的胡萝卜抓取任务中，模型接到的指令只是把胡萝卜放进盘子里。第一次夹取失败后，它并没有重复同一个抓取动作，而是发现夹爪已经碰到了胡萝卜，顺势改为用夹子把胡萝卜往盘子方向推，一次推不进去，又加大力度重新推了一次，最后才主动切换策略重新抓取。

要知道，“推”这个动作从未包含在训练数据里，模型也没有看过失败轨迹示范，这种灵活应变更像是一种内生的物理直觉。

这种“智能涌现”的出现，是物理常识注入带来的质变。让模型拥有物理常识的同时，不丢失原有的通用理解能力，我们在架构层面做了另一项关键设计“左右脑”同构架构TwinBrainVLA。

我们引入一个同构但被冻结的VLM模块作为“左脑”，保持其开放世界理解能力不变；同时引入可训练的“右脑”网络，专门处理机器人本体感知状态和低级动作策略。

关键在于“左右脑”之间的信息交互，通过非对称混合Transformer机制（AsyMoT），右脑可以动态查询左脑的语义知识，左脑参数不会被下游任务污染。

这种设计的精妙之处在于知识迁移而不遗忘，右脑学会动作控制时，左脑依然保有识别易碎物品的常识及推断约束条件的能力。遇到新场景时，左右脑协同工作，既不会变成“只会抓杯子不懂杯子会碎”的纯执行机器，也不会停留在“知道要轻放但手不听使唤”的纸上谈兵阶段。

张翼博：在过往一年当中，我们观测到了非常多次的智能涌现，也和英伟达交叉验证了这个数据规模是有效的。我们用 1000 小时的数据实现了这样的模型性能，这本身就是对新范式的一次关键验证。

智客ZhiKer：从数据采集到模型训练的周期和成本如何？

陈凯：数据采集、处理和模型预研同步推进的全流程不到3个月。核心难有三个，一是制作数采设备，二是数据确权与隐私合规，三是打造数据处理管线提取物理常识。管线建立后，训练视频生成模型和多模态大模型就比较顺畅。

张翼博：我们是国内第一批完成10万小时量级多模态第一人称视角数据采集的公司，通过自研的全套技术方案，综合成本远低于市场其他类型数据，数据有效性也大幅提升。

何旭国（深度机智硬件负责人）：很多人认为脑袋上装一个摄像头就完成了数据采集，但真正解决这个问题的时候，有大量的工程化问题需要解决。我们在定义什么样的数采设备可以进入到真实生产生活。

目前所有的设备，它的存储、电量不可能做到又小、时间又长、功耗还低，这是矛盾的。智能眼镜每增加 10 克，对耳朵的负担都非常明显。所以我们最开始就抛弃了传统智能眼镜作为数采设备的解决方案。

我们最终收敛到把整个设备的形态对头部负担尽可能小，把所有的存储、算力、通讯等基本功能外置，定制了腰包、电源、存储、电脑，开发了软件，做了这个解决方案。

我们部署了一个轻量级手部检测模型。画面中出现手的时候就开始拍摄，画面中没有手了拍摄就结束，这样最大程度保证了数据的有效性。

智客ZhiKer：你们还研发了自主站立工业级拟人体机器人，为什么一家做“大脑”的公司要做本体？

陈凯：使用人类数据学习的最佳载体，应该是高度拟人的机器人。

何老师不仅负责数据采集设备，也为大脑设计身体。这款机器人全身采用万元级谐波力控电机关节模组，全身一共72自由度，而且这款机器人在不通电的情况下可以自主站立，这对于机器人未来进入场景非常重要，它可以实现低能耗和高安全性。

张翼博：谐波全身力控是技术路线，拟人体是结构路线。拟人体要求每个自由度与人对齐，手指长度、胳膊肘长度均需匹配，即结构同构。我们的优势在于“谐波+同构”兼得，谐波关节模组尺寸正是行业难点，我们已取得关键突破。

智客ZhiKer：公司最终定位是做机器人大脑，还是有思考的机器人本体？未来规划是什么？

陈凯：最终目标是具身AGI，或者说具备物理智能的大模型，用模型能力为机器人提供服务，提供更理解物理世界、更理解交互的Token。

张翼博：短期来讲我们要做“沿途下蛋”。先开源4B的小模型，让行业看到这了路的可行性，同时我们的数采设备也已经逐渐开始商业化；下一步，把更大的模型做成产品，让大家调用；同时，我们还在探索养老和教育场景。

智客ZhiKer：技术路线收敛之后，数据标注、算力、真机验证，哪个环节会成为新的瓶颈？中国在哪个环节有优势？

张翼博：中国的优势首先在数据。美国采集并标注第一视角 27 万小时，花费巨额成本。中国拥有更丰富的数据来源和更低廉的采集成本，千万小时人类第一视角数据，今年在中国整个行业就会达到。

再说算力。国产卡完全可以承接，我们有充足的国产算力资源作为支撑。现在技术已经收敛了，下一步就是投入信心、国家支持、全行业共同努力。中国实现弯道超车或者直线超车是非常有可能的。

陈凯：还有一个关键是标注与模型架构、训练方法紧耦合。对手部轨迹建模可能只需几块钱算力，但对空间常识、任务理解的标注可能需要几百块，投入巨大，回报也巨大。

智客ZhiKer：中国和美国在具身智能领域各有侧重，但如果具身智能是AGI 问题，这个分工会被打破吗？中国在大模型上的追赶经验能复用到具身智能上吗？

陈凯：中美确实各有侧重，中国在本体领域有显著的竞争优势，美国在具身大脑方向起步更早。

中国在具身大脑方向上的力量还需要加强，但是我们对赶超甚至领先非常有信心。一是场景储备，制造业立国，幅员辽阔，数据上天然有优势。二是硬件协同，具身大脑可与本体同步迭代，以更高效率设计适配大脑的身体。三是制度创新，国产芯片突破，北京中关村学院等新型教育机构探索新科研组织方式。

不管是制度创新、产业协同，还是场景丰富度、国家意志，具身大脑的方向上，我们起步不晚，积累不浅，完全有信心走出一条自己的路。

张翼博：能与物理世界交互的人工智能，估值空间巨大。这既是国家需求，也会对生产制造业、家庭服务业影响深远，让劳动变成一种选择，而非必需。

如果具身智能成为AGI的原生能力，将重构整个AI产业链。我相信中美会齐头并进，不会是美国遥遥领先。

不做遥操作、不采真机数据，这家公司的机器人靠学习“人类第一视角数据”干活｜AI Founder请回答

敬原创，有钛度，得赞赏