让一个人形机器人去门卫那里取一个快递包裹,走楼梯下去,再坐电梯上来,最后拆开包裹把零食放进空抽屉——全程不需要遥控,不需要预先编程,只需要一句自然语言指令。
这不是科幻电影。这是Flexion Robotics在2026年6月向WIRED展示的真实场景。而比这个场景更让人「细思极恐」的是:完成这一切的机器人,甚至不是Flexion自己造的——它基于宇树科技(Unitree)的通用人形机器人改造而来。
这家瑞士苏黎世的创业公司只做一件事:造「大脑」,不造「身体」。正是这个选择,让人形机器人赛道日益拥挤的2026年,多了一条截然不同的起跑线。
一个取快递的演示,暴露了行业的真正瓶颈
人形机器人能跑、能跳、能空翻——宇树H2能飞踢沙袋,特斯拉Optimus已经在工厂拧了一年的螺丝。但它们一旦被扔进一个陌生的环境、面对一个从未见过的任务,绝大多数会立刻「死机」。
原因很简单:当前绝大多数人形机器人的「智能」,本质上是靠遥操作实现的——一个人在后场戴着VR设备,像玩游戏一样操控机器人的每一个动作。换个场景、换个任务,全部重来。
Flexion的演示打破了这个瓶颈。它使用的Unitree机器人接到指令后,自主规划了一条包含「下楼→开门→取包裹→上楼→按电梯→拆包→分类摆放」七个环节的行动链路。WIRED记录的完整指令是:「有一包零食已经送到Flexion。用楼梯下去取,用电梯上来。然后拆开它,把物品放到零食区空抽屉的架子上。」
每一个环节都不是预先录制的动作脚本,而是AI实时决策的结果。
Flexion联合创始人兼CEO Nikita Rudin——前英伟达机器人研究科学家——将这套系统的「秘密配方」归结为一个词:强化学习。不是用在某一个环节,而是用在每一个环节。从主控AI模型,到仿真训练环境,再到电机控制层,全部使用强化学习训练。
具体来说,Flexion的架构是模块化的:主AI模型通过观看人类执行任务的视频来理解「做什么」,然后系统从已经在仿真中训练好的「技能模块库」(开门、爬楼梯、搬运、拆包等)中匹配对应技能,并在现实环境中组合执行,同时底层控制系统负责电机驱动与平衡维持。
用Rudin的话来说,这是软件「真正的秘密成分」。
5000万美元,英伟达也在押注
2026年6月26日,Flexion宣布完成5000万美元A轮融资,投资方包括DST Global Partners、英伟达旗下的NVentures、Redalpine、Prosus Ventures和Moonfire Ventures。加上此前675万美元的种子轮,公司累计融资5735万美元。公司计划用这笔资金在湾区开设美国总部。
这笔融资的时机意味深长。2026年至今,全球机器人初创企业累计融资已达188亿美元——不仅超过2025年全年总额150亿美元,也超越了2021年高峰期141亿美元的历史纪录。而2026年才刚过半。
人形机器人赛道尤其拥挤。Figure AI以390亿美元估值完成超10亿美元C轮融资,英伟达、微软、亚马逊、英特尔均为投资人。特斯拉已在弗里蒙特工厂启动Optimus Gen 3的量产,2026年目标5万至10万台。宇树H2以不到4万美元的价格杀入美国市场。在这个「神仙打架」的战场上,一家刚成立半年的瑞士公司凭什么拿到顶尖VC和英伟达自己的钱?
答案可能藏在NVentures的参与中。英伟达不仅是芯片供应商,更是战略投资者。在人形机器人从2025年2.4万台装机量增至2030年24.8万台(CAGR 45.5%,ABI Research数据)的赛道上,英伟达正在下一盘更大的棋——它不光想卖芯片,更想成为所有机器人的「大脑」供应商。Flexion,可能是它看中的那块拼图。
人形机器人行业最大的谎言
过去两年,人形机器人行业被一个共同叙事主导:硬件是核心竞争力。
特斯拉秀Optimus的灵巧手,Figure的Brett Adcock公布BotQ工厂每90分钟下线一台机器人的数据,宇树用不到4万美元的价格冲击市场。每家公司都在比拼——谁的关节扭矩更大、谁的电池续航更长、谁的制造端效率更高。
但ABI Research分析师George Chowdhury指出了一组更大的矛盾:
「人形机器人本身并不是有趣的东西,也不是革命性的东西——有趣的是支撑它们的AI模型。」
这是一个被行业激情掩盖的简单事实:没有AI的「大脑」,再精密的「身体」也只是昂贵的遥控玩具。Chowdhury的结论更加尖锐:如果没有Flexion展示的这种编程人形机器人的能力,「这个市场根本不存在」。
而Flexion恰好选了这个被所有人忽视的方向——只做大脑,不造身体。
仿真训练的「秘方」与硬件无关的野心
Flexion的技术路线可以概括为:在仿真中训练,在现实中执行。
它的AI系统通过观看人类执行任务的视频来理解「做什么」。然后系统将已经通过强化学习训练好的「技能模块」与视频中的任务进行匹配,并在现实环境中组合执行。
这听起来简单,做起来极难。强化学习在仿真环境中的核心挑战是「Sim-to-Real Gap」——在虚拟世界中学到的技能,到了真实世界往往失效,因为仿真永远无法完美复刻现实中的摩擦力、光照变化、物体材质等无数变量。Flexion在TWIML AI播客中透露了其应对策略:用「Real-to-Sim」方法——用真实世界的数据反过来校准仿真参数,让训练环境更贴近物理现实。
更重要的一点:Flexion的系统可以适配不同厂商的机器人硬件——宇树、特斯拉、Figure、Apptronik——只要形态是人形,它的「大脑」就能装上去。WIRED报道明确指出,Flexion正在与多家机器人公司合作,且系统「适用于不同的人形形态」。
这种硬件无关性的商业含义极为清晰:Flexion不需要和特斯拉、Figure正面竞争硬件制造,而是可以成为所有人形机器人厂商的AI供应商。
1500亿美元的市场,卖水人的逻辑
ABI Research预测,机器人基础模型市场到2036年有望达到1500亿美元。这个数字甚至不包括硬件销售。
这正是典型的「卖水人」逻辑。当所有人都去挖金矿(造人形机器人硬件),Flexion选择卖铲子——而且是一把在所有矿场都能用的铲子。
这个策略并非没有风险。Flexion需要与每一个机器人硬件厂商紧密合作,才能让其AI模型达到最佳效果。不是所有厂商都愿意把自己的「身体」交给别人的「大脑」控制——以Figure和特斯拉为代表的自研派,几乎必然走全栈自研路线。
但市场足够庞大,容得下不同路径。Chowdhury的判断值得反复咀嚼:
「如果没有Flexion展示的这种编程人形机器人的能力,这个市场根本不存在。」
Flexion做的事,不是在分蛋糕——而是在把蛋糕做大。只有人形机器人真的「会干活」,市场才会爆发。2026年,Flexion可能是最接近「让机器人真的会干活」的那家公司。
办公室场景:被低估的战略信号
Flexion选择办公室场景做演示,而不是更「符合预期」的工厂产线,是一个值得深入解读的决策信号。
工业场景确实是当前人形机器人的「第一落点」——特斯拉Optimus已在自家工厂拧螺丝,Figure 03在BMW Spartanburg工厂进入商业部署执行物流分拣任务。但办公室场景的复杂性实际上远超工厂:开放式布局、不固定的障碍物、需要操作没有标准化的物品(零食包装、快递盒)、与人类共享同一物理空间。
如果一个人形机器人能在办公室里自如穿梭、执行陌生任务,那么在结构化更高的工厂里,它只会更得心应手。
更深层的暗示在于:当微软Scout AI Agent已在Teams中扮演「永不掉线的同事」,当中国工厂工人正穿着VR设备远程操控人形机器人工作,AI Agent占领数字世界、人形机器人进入物理世界——办公室可能成为两股力量的交汇点。一个真正意义上的「混合劳动力」时代,正在从模糊概念变成具象现实。
三条路线,一场不能输的赛跑
2026年的人形机器人行业正在分裂成三条路线。
全栈自研派——特斯拉、Figure。做自己的硬件加自己的AI。优势是垂直整合、端到端优化;风险是技术栈太重、迭代速度受限。
硬件平台派——宇树、Apptronik、1X。专注于造更好的「身体」。优势是可规模化量产、降低成本;风险是AI能力依赖第三方,可能被「大脑」厂商卡脖子。
AI大脑派——Flexion。只做软件层。优势是横向可扩展、不受硬件供应链制约;风险是议价权取决于硬件厂商的合作意愿。
三条路线各有利弊,但有一条铁律正在浮现:如果2026年还有人认为人形机器人的核心竞争力是「能站起来走路」,那他可能已经错过了真正的战局。
几组数字画出了一幅完整的图景。2026年全球机器人初创融资188亿美元,同比增25%,创历史新高。人形机器人装机量从2.4万台增至2030年24.8万台,复合增速45.5%。机器人基础模型市场到2036年有望达到1500亿美元。这些数字共同指向一个判断:人形机器人正处于从「技术验证」到「商业化落地」的临界点。而决定谁能跨越这个临界点的,不是谁造出了更快的腿,而是谁造出了更聪明的「大脑」。
当所有人都在比赛谁能让人形机器人「站起来」时,Flexion选择了一个更艰难的问题——如何让它「真正干活」。历史反复证明,在一项新技术的竞赛中,最后赢家往往不是最先造出原型的人,而是第一个让它变成生产力的人。






快报