对话灵初智能CEO 王启斌：具身智能，正从"硬件浪潮"进入"数据浪潮"-钛媒体官方网站

目前，灵初智能已部署100套数据手套设备，完成万小时级真实数据验证，2026年目标是将数据采集量级提升至百万小时。

近日，全球最大的开源 AI 社区 HuggingFace 上, 由灵初智能开源的SynData 数据集冲上了 Trending 榜全球第一。

此前，灵初智能采集了超过10万小时的人类操作数据，涵盖工业装配、生活操作、物体抓取等多种场景和任务，其中1000小时已开源发布。截至2026年5月13日，SynData下载量已达约1.46万次。

公开资料显示，灵初智能创立于2024年，创始人兼 CEO 王启斌曾就职于云迹科技和京东机器人，拥有消费电子与商用机器人（酒店配送、物流配送）的研发、交付与商业化落地经验。联合创始人陈源培，曾在全球范围内首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作。

与大多数注重本体运动控制开发的具身智能不同，灵初智能专注在人类数据路线上，试图通过采集人类的真实行为数据，用于具身智能模型的训练，以此让机器人的灵巧操作实现更大的泛化性。

数据采集方式上，灵初智能摒弃了传统遥操作和纯仿真方案，采用多模态数据手套在真实场景中记录人类的视觉、触觉、关节角等信息，以获取高信噪比的精细操作数据。

目前，灵初智能已部署100套数据手套设备，完成万小时级真实数据验证，2026年目标是将数据采集量级提升至百万小时。

4月，灵初智能发布Psi-R2 与 Psi-W0，构成了“双系统大模型架构”。其中，Psi-R2 的核心定位是一个 World Action Model（世界动作模型/VLA）。它的主要任务是：看懂指令，规划动作，直接操控机器人干活。

Psi-W0 是一个 Action-Conditioned World Model（动作条件世界模型）。它不直接控制机器人，而是在后台模拟物理世界的运行规律，专门用来评估、打磨和提升 Psi-R2 的策略。

“当前具身智能正从‘硬件浪潮’进入‘数据浪潮’，灵初智能要在这波浪潮里成为‘数据标准制定者’。”

灵初智能CEO 王启斌表示，灵初智能的技术路径主要分为三步。

第一步，把采集成本打下来。灵初智能自研的外骨骼手套已把采集成本降到传统真机方案的十分之一，精度达到亚毫米级，这让大规模人类数据采集真正可行。

第二步，用数据训练出全球领先的模型。Psi-R2 是全球首个以 10 万小时量级人类数据预训练的 World Action Model，在 MolmoSpaces 榜单位列全球第一，用少于 100 条真机轨迹就能完成全新任务的泛化。

第三步，通过开源推动行业标准形成。灵初智能已开源全球最大人类手部操作全模态数据集首批 1000 小时，后续还会结合行业推动 Benchmark 建设，同步推动数据格式与评测指标的行业共识形成。

以下是与灵初智能CEO 王启斌的对话内容，略经编辑：

Q：灵初的核心客户是谁？制造业精密装配、物流柔性打包之外，下一个重点落地场景是什么？

王启斌：我们目前核心客户是两类：一是制造业客户，核心是精密装配环节，比如电子产品组装、汽配零部件检验；二是物流行业，重点是服装仓储的拣选、分拨和打包。服装物流 SKU 极其丰富，一个仓库里可能有几万个 SKU，这个特点天然产生了大量多样性数据，对我们训练模型价值极高。

下一个重点场景，我们在认真评估零售门店的补货和货架整理，以及电商物流中的多品混合拣选。这些场景有几个共同特点：任务高频、可量化、客户有迫切的降本需求，而且环境是半结构化的——不像全开放那么难，也不像固定工位那么简单，正好是我们模型能力的甜区。同时，我们也有明确的海外物流客户。

Q：在您看来，数据从人类中来，为什么比从遥操/仿真中来更有潜力？在这场定义权之争中，行业目前是否存在一些数据观点上的误区？

王启斌：人类在工厂、仓库、家里每天执行的灵巧操作，天然携带三样东西：真实的任务分解逻辑、手眼协调的精细反馈、以及面对意外情况时的自适应调整。这些是遥操和仿真都很难完整复现的。

遥操的问题在于：操作节奏慢、成本高，更关键的是，遥操的天花板是人盯着屏幕能做到的最好水平——而人在屏幕前的操作能力远不如人在现场的自然操作。仿真的问题则是 Sim2Real Gap：在精细操作里，差一两毫米就意味着任务失败，仿真的物理模型再精确也有偏差。

行业目前有几个明显误区：第一，认为数据量等于能力——其实任务多样性比物体多样性重要，物体多样性又比场景多样性重要，数量堆不出泛化；第二，认为遥操是黄金标准——我们的实验表明，同等小时数的人类原生数据，在精细操作上的迁移效果显著优于遥操；第三，对数据格式和模态的关注不够——全模态（视觉+语言+关节角+触觉）和只有视频的数据差异是量级的。

Q：灵初已经积累了近 10 万小时人类数据，手套采集成本降到了真机方案的十分之一。能否具体描述一下，一条真实的人类动作数据，从外骨骼手套采集，到最终让机器人学会并优化一个新技能，中间经历了怎样的完整管线？目前有哪些数据或者现象证明这个数据飞轮正在加速，而不是线性堆砌？

王启斌：完整管线大致是这样的：操作员戴上我们的外骨骼手套，在真实场景里完成操作任务，手套以亚毫米级精度同步采集 3D 关节轨迹、触觉信号和第一视角视觉流，同时配合语言标注。

数据回传后，Psi-W0（世界模型）对每一条数据进行自动质检和打分——它本质上是在"看这个动作是否合理"，分低的数据被过滤，高质量数据进入标注池。AutoLabeling 完成大部分标注工作，只有少量模糊样本需要人工审核。最终干净的数据进入 Psi-R2 的预训练池。

迁移到新任务时，流程是：给 Psi-R2 少于 100 条该任务的真机演示轨迹做微调 → Psi-W0 在世界模型里做强化学习，生成大量合成的机器人数据来补充长尾情况 → 筛选高质量数据回流到预训练池 → 下一代模型更强。这个循环每轮都在缩短。
飞轮加速的证据：最直观的是新任务上手速度。半年前，一个新任务需要几百条真机演示才能达到稳定；现在不到 100 条就能完成长程精细操作，比如装配手机、工业包装、叠纸盒。这说明预训练质量在指数级提升，而不是线性堆砌。

Q：真机数据和仿真数据有没有应用的黄金比例？另外，过去大家都讲数据金字塔是真机数据＞仿真数据＞互联网数据，现在顶层的真机数据是不是内部也会有一个小金字塔出现？如果有的话，又会是怎样的排列？

王启斌：仿真声量下降，本质上是行业意识到 Sim2Real Gap 在灵巧操作里是结构性问题，不是调调参能解决的。但仿真没有消亡，它的价值在于三个地方：一是探索性训练，对没有真实数据的长尾任务做前期预热；二是大规模 RL 训练，在世界模型里生成反事实样本；三是安全边界测试，模拟极端情况。我们的 Psi-W0 其实是用来做"基于真实物理感知的仿真"，和纯虚拟仿真不同。

黄金比例这个问题，行业里没有统一答案，我们内部也没有固定配方——它取决于任务类型。精细操作类任务，真实人类数据权重要高得多；粗力矩任务，仿真数据的覆盖可以更多。强求一个比例反而会造成误导。

你说到真机数据内部的小金字塔，这个观察很锐利。确实，在我们看来，顶层的真实操作数据内部也有层级：最高质量的是外骨骼采集的人类原生数据（高精度、全模态、天然携带任务意图）；其次是传统遥操数据（真实物理，但节奏慢、存在操纵偏差）；再次是机器人自主作业中回流的在线数据（最终目标，但质量参差需要筛选）。

灵初的策略是绕开传统遥操，直接用人类原生数据做预训练，再用少量真机演示做微调，本质上是把这个小金字塔的中层压扁了。

Q：今年大家都在讲 100 万小时的数据量级，100 万小时这个量级是怎么达成共识的？

王启斌： 100 万小时不是一个随意定的数字。

类比 LLM 的发展，GPT-2 到 GPT-3 是数据量的跃升，带来了涌现能力——机器人领域我们相信存在一个类似的临界点，在那之后模型对未见过任务的 zero-shot 泛化能力会出现质的变化，而不只是量的累积。目前业界普遍把这个临界点估计在百万小时量级。

我们对 100 万小时的节点预判是 2026 年底。路径上我们在并行推进：工厂合作的集中采集、特定的数采厂、以及正在设计的分布式微支付采集网络。

内部预演方面，我们有一些早期信号。当我们把训练数据从 1 万小时扩展到 10 万小时时，模型在未见场景上的迁移成功率有一个非线性的提升——这给了我们信心。

按照这个趋势，100 万小时之后，我们预期新任务的 cold start 数据量可以从现在的不到 100 条继续大幅压缩，趋近于真正的 few-shot 甚至 zero-shot 部署。

Q：您曾把 2026 年具身智能的发展概括为三个交错推进的小周期：硬件周期仍在延续，数据周期已经加速，场景周期刚刚启动。那么，未来两年最关键的胜负手会在哪个周期？

王启斌：三个周期是真实存在的，但它们的时间轴是错位的。硬件周期是整个行业共同在跑的赛道，门槛正在降低，整机成本还在快速下降，这给所有人都带来了机会，但也意味着纯硬件已经很难形成壁垒。场景周期刚刚启动，大多数真正的商业订单还处于小批量验证阶段，爆发要等数据和模型能力先到位。

未来两年，我们的胜负手在数据周期。我们的判断是：谁先建立起高质量、可持续的数据飞轮，谁就能在场景周期爆发时最快完成能力迁移。数据飞轮不只是数据量的积累，更是"采集-质检-训练-部署-回流"整个链路的效率。

取舍上：第一，把资源集中在模型、数据、灵巧操作上。整机是高资产、慢迭代的事，而我们需要快速迭代；第二，在场景选择上聚焦，宁愿把物流仓储做到极致，也不同时铺多个场景；第三，暂时牺牲一部分商业收入的增速，来确保数据飞轮真正转起来，而不是为了交付而交付。

Q：行业里"融资热、落地难"的矛盾很突出。灵初估值一年涨了六七倍，同时您此前也提到过 2026 年底销售额目标在几个亿。在资本预期和实际商业节奏之间，您会如何管理这种张力？

王启斌：我对这个问题的态度是：不刻意管理资本预期，而是管好自己的经营节奏，然后如实透明地沟通。

估值涨了六七倍，背后是资本对这个赛道长期价值的判断，不完全是对我们当下收入的定价。我们没有因为估值高就去做超出能力的承诺。2026 年底几个亿的销售额目标，是我们认真核算了交付管线和商业进展之后提出的，不是为了配合融资故事。

张力确实存在。资本希望看到快速的商业化验证，而具身智能的真实落地周期比软件要长——一个仓库项目从接洽到稳定运行可能需要 6-9 个月。我们的做法是：对投资人坦诚区分"技术里程碑"和"商业里程碑"，前者可以比较快展示，后者需要更长时间。不混淆两者，才能建立真正的信任。

我经历过 2018 年机器人和自动驾驶的那轮周期，见过公司因为过度承诺商业节奏最后失去信誉。这一次我的原则是：宁可让资本预期低一点，也不承诺我们没把握做到的事。

Q：您亲历了 2018 年以来机器人和自动驾驶的周期，也见过行业预期的起伏。这一次具身智能的热潮，您认为哪些底层条件已经发生了真正的变化？又有哪些风险是大家目前集体忽视的？

王启斌：真正发生变化的有三点：第一，算法范式转移。2018 年的机器人本质上还是规则驱动+有限感知，VLA 端到端模型的出现让"从数据中学复杂操作"第一次真正可行；第二，中国供应链的成熟度。灵巧手、传感器、执行器的成本和供应稳定性，今天比 2018 年好了一个数量级，这让硬件创业门槛大幅降低；第三，大模型带来的算力和推理基础设施。具身大脑在边缘端运行的成本曲线还在快速下降。

集体忽视的风险，我认为有两个：第一，数据质量问题。行业里有一种错觉，认为只要堆数据量，能力就会出来。但如果数据的精度、模态完整性、任务多样性不够，量大只会放大噪声；第二，商业化时间线的乐观偏差。大家普遍在说今明两年是"商业化爆发元年"，但真实的工厂和仓库客户的决策周期很长，一个项目从 PoC 到大规模采购可能需要 2-3 年。过度承诺商业节奏会让行业信誉受损，最终伤害整个赛道。（文 | 科技潜线，作者 | 饶翔宇编辑 | 杨林）

对话灵初智能CEO 王启斌：具身智能，正从"硬件浪潮"进入"数据浪潮"

以下是与灵初智能CEO 王启斌的对话内容，略经编辑：

敬原创，有钛度，得赞赏