“养龙虾”狂热背后：中国AI应用诚可贵，底层创新价更高-钛媒体官方网站

OpenClaw在中国市场迅速走红在折射出中国AI产业在应用层面快速落地、场景丰富、体验驱动的强大创新能力的同时，也暴露出一个更深层的问题，那就是支撑这些应用繁荣的底层能力，我们仍然存在不小的差距。

文 | 孙永杰

当OpenClaw在中国市场迅速走红，从开发者社区到普通用户层面掀起一轮“本地AI智能体”热潮，其意义显然已不止于一个开源项目的成功。在某种程度上它更像一面镜子，折射出中国AI产业在应用层面快速落地、场景丰富、体验驱动的强大创新能力。

但如果我们将视角拉长，这场热潮同样暴露出一个更深层的问题，那就是支撑这些应用繁荣的底层能力，我们仍然存在不小的差距。无论是基础大模型，还是高端算力体系，中国AI仍处在“追赶与突破并存”的阶段。从这个角度看，OpenClaw的火爆，与其说是一次胜利，不如说是一种提醒。

OpenClaw火爆，其根基基础大模型差距犹存

OpenClaw之所以能够迅速破圈，本质上并不只是产品设计或工程实现的成功，而是站在大模型能力已经足够“可用”的拐点之上，即智能体（Agent）形态的爆发，依赖的是模型在理解、推理和执行任务方面的综合能力达到一个临界值。

换言之，没有基础大模型能力的支撑，就不会有OpenClaw的应用繁荣。但问题在于，这一“底座”本身，我们与国外主流大模型相比仍存在客观差距。

根据Epoch AI今年年初发布的报告（《Chinese AI models have lagged the US frontier by 7 months on average since 2023》，以下简称报告），自2023年以来，处于AI能力前沿的顶级模型几乎均出自美国，中国最佳模型在Epoch Capabilities Index（ECI）上的平均“时间差”约为7个月。报告给出的区间是在开源快速迭代期（如DeepSeek‑R1奋力追近Claude 3.5）时差距可缩小至约4个月，而在美国闭源新模型（如o3 系列）刚发布的窗口期，差距一度拉大到约14个月，均值则相对稳定在7个月左右。趋势虽在缓慢改善，但尚未收敛到“零差距”。

具体到节奏上，美国AI模型的更新频率极高，从GPT‑4到o1，再到GPT‑5和新一代Gemini系列，几乎不存在长时间的停滞窗口，且能力跃迁并不完全依赖参数规模，而更多来自训练范式、推理路径设计、对中间状态的显式建模等方向的系统创新。例如o1系列在推理路径、思考过程建模上的工程化尝试。

相比之下，中国AI模型呈现出典型的“跳跃式追赶曲线”。从Baichuan2、Qwen‑14B 到Yi‑34B，再到DeepSeek‑V2、Qwen2.5、Qwen3 Max，每一步间隔都能看到大幅跃迁，但提升往往更多依赖参数规模扩展、MoE架构以及工程层面的极致优化。虽然这种“台阶式追赶”在短期内颇为高效，但也意味着在连续迭代频率、训练范式创新等维度仍存在差距。

此外，报告还特别强调了“开源vs闭源”的结构性差异。当前中国领先模型几乎清一色选择开源或开放权重（如Qwen系列、DeepSeek系列），而美国最前沿的一批模型（如GPT‑5、o3）则保持闭源。这两种路径各有优势，例如开源降低复现门槛、放大社区协作效应，但闭源更容易围绕新范式构筑高壁垒。报告同时指出，中国模型在ECI曲线上首次超越 GPT‑4出现在2024年5月左右（比GPT‑4发布滞后约14个月），但截至2025年底尚无模型在整体能力上超越o3级别模型。

这背后反映的并非工程实力，而是范式创新的主导权问题。虽然开源生态在代码、数学、对话等单一维度上可以快速追平甚至在部分榜单上反超，但在决定下一代AI范式跃迁的关键能力——持续学习、自我反思与规划、更强的Agent级系统能力，仍主要掌握在具备闭源模型与巨量算力资源的少数美国公司手中。

需要说明的是，ECI指数综合语言理解、推理、多任务泛化与专家校准，量化了真实能力差距。所以上述7个月的差距并非只是抽象的数字，而是它会在OpenClaw的典型使用场景中得到具象的体现。

例如长上下文的稳健性。众所周知，OpenClaw的一个关键特点，是会话历史和任务状态往往会被完整地保留并反复引用，对于一些复杂的企业流程，一个会话轻松突破10万token，甚至逼近20万token。而在这样长的上下文下，模型不仅要记住“你之前说过什么”，更要持续做出高质量的规划决策（例如决定何时调用工具、如何修改既有计划、怎样解释外部系统返回的复杂结果等）。但当前在这一维度表现最稳健的仍然是GPT‑5和少数几款最新的前沿闭源模型，而不少国产模型在超过特定上下文长度之后，开始出现遗忘前文指令、逻辑跳跃、工具调用混乱等问题。

又如Agent化推理能力。OpenClaw之所以被视为“数字员工框架”，就在于它不仅能回答问题，还能把“完成任务”拆分成多步执行，例如先查收合同邮件，再在CRM系统里更新客户状态，然后根据对方时区安排会议，最后生成一条总结发送给内部群。而这个过程背后，需要模型具备相当程度的任务分解、规划和反思能力，即业界常说的agentic reasoning。事实是，美国的最新前沿模型在这方面已经形成了一套从架构到训练范式的系统性方法，而中国模型尽管在代码、数学、对话等单一维度上成绩亮眼，但在Agent链路上的一致性方面仍稍逊一筹。

更值得我们警惕的是安全性与对抗鲁棒性。安全公司Palo Alto Networks在分析OpenClaw风险时，将此类自动化Agent系统视为“高危组合”的一部分，理由很直接，一个可以自动读取邮件、浏览网页、操作企业系统的Agent，一旦在提示注入、权限边界控制、越权调用等环节存在缺陷，就可能演化为“带AI的自动化攻击脚本”。在这一点上，部分美国前沿模型厂商已经投入大量资源，用于对抗式训练、权限分级、敏感操作的多轮确认等机制，而不少国产模型和应用方仍更多处在“补齐基础安全能力”的阶段。当OpenClaw 与真实业务系统深度绑定，这种安全能力的差距就会被成倍放大。

基于上述，我们发现OpenClaw在中国的流行呈现出某种矛盾的两面性。一方面，它是中国在应用层和生态组织能力上的一场胜利，证明了我们自己极擅长“把好模型用起来”“把框架玩出花儿来”；另一方面，它也折射出一个残酷的现实，即在最关键的基础大模型领域，我们仍然在以大约半年的时差追逐前沿，而这无疑决定了OpenClaw的性能上限。

高端算力不足，拉低中国大模型上限

如果说上述的基础模型差距是表象，那么算力，则是决定这一差距能否缩小的根本变量。原因很简单，在AI体系中，算力不仅决定模型训练的规模上限，也直接影响模型迭代速度和实验空间。尤其是在当前大模型进入“规模+算法”双轮驱动的阶段后，算力的重要性被进一步放大。而事实是，中国在高端算力上的结构性短板，正成为基础模型迭代的“阿喀琉斯之踵”。

据Epoch AI另一份报告显示，2019年后中国顶级中文语言模型训练计算能力迅速增长，2021年底曾追平全球，但此后放缓，这导致自2021年底以来，前十中文模型每年训练计算能力增长约3倍，远低于全球其他地区自2018年起每年5倍的增速。而按照当前发展速度，中国需约数年才能达到全球顶级模型的计算水平。

如果说Epoch AI的报告代表了海外视角，那么在今年年初国内举行的AGI‑Next前沿峰会（以下简称峰会）上，来自清华、智谱AI、阿里巴巴通义千问等多位一线大佬及从业者，也给出了与之相呼应的判断。

例如当英伟达发布新一代 Rubin 芯片时，首批主要客户名单中几乎难见中国互联网或 AI头部企业的身影。对此，智谱AI联合创始人唐杰在会上直言，中国与美国在算力资源上的差距“有可能不但没有缩小，反而在扩大”，这种差距不仅体现在单枚芯片性能上，更体现在总算力规模、算力利用效率和供应可预期性等维度。而阿里巴巴通义千问（Qwen）前技术负责人林俊旸在峰会上给出的评估称，美国顶级实验室拥有的算力资源，普遍比中国实验室高出1到2个数量级。

尽管这类估算并非精确测量，但结合公开披露的GPU规模、融资能力和云基础设施布局，我们可以大体勾勒出了一个事实，即由于高端算力受制于成本和供应，中国企业不得不将大量资源优先用于支撑既有业务的推理与在线服务，而像OpenAI、Anthropic这样的对手，却可以持续将海量算力资源投入到下一代模型的“饱和式研发”之中。

林俊旸同时提醒，Agent在执行长尾任务时暴露出来的各种“棘手问题”，不可能完全通过Prompt工程或应用层代码修补，必须回到模型层面，通过针对性的大规模训练与后训练（“烧卡”）来解决—“模型即产品”，没有系统性的模型训练能力，就很难构建真正可持续的技术壁垒。

更令人担忧的是，为了打破这种“算力锁死”，中国企业正陷入一种“打游击式”的生存困境。据峰会透露，不少国内团队为了获取高端算力支持，不得不通过错综复杂的步骤，去租用东南亚或中东数据中心的算力，这不仅带来了极高的成本，更意味着研发效率的摊薄。而这种结构性的落后，让业内精英们保持着清醒的悲观。例如当被问及未来三到五年中国公司有多大概率超越美国顶尖AI企业时，林俊旸给出的猜测是20%或更低。

正是在上述背景下，中国厂商近年来通过工程优化与架构创新，在一定程度上“对冲”了算力不足的影响。例如通过MoE架构、推理优化等方式提升效率，甚至在部分场景中实现对海外模型的成本优势。

但我们必须看到，这种优势更多是“效率创新”，而非“资源优势”。而当模型竞争进入更高维度（例如更长上下文、更复杂推理、更大多模态融合），直至Agent时，底层算力的差距仍然会成为限制上限的关键因素。

因此，从长期看，如果算力基础设施无法实现质的突破，中国AI在基础模型层面的追赶将持续面临“天花板效应”。而要打破这个“天花板”，仅靠应用层面的“用法创新”是不够的，必须依赖更扎实、也更漫长的底层技术创新投入。

中国AI向未来，需押注算力底层创新

提及所谓“底层创新”，在我们看来，其不应是宽泛的口号，而是一系列极其具体、需要长期投入的系统工程。具体到基础大模型，其是在架构、训练范式、对齐技术、安全机制上的持续突破，是在多语言、多模态、多任务一体化上的深耕，是在数据治理与标注体系上的扎实建设；至于算力体系，则是从芯片、互联网络、系统软件到调度平台的一整套协同优化，力图用更高的系统效率，抵消部分在单卡性能与供应上的外部约束。而这之中，如前述，算力是重中之重。

基于此，国内厂商正在尝试从不同层面补齐底层算力的缺口。

以中科曙光近期推出的scaleFabric国产原生RDMA网络为例，其价值并不只是替代某一类进口产品，而是在算力体系中重构“网络”这一关键变量。

众所周知，在大规模训练中，通信开销往往占据30%—50%，而scaleFabric通过全栈自研实现高带宽、低时延和无损传输，本质上是在提升算力的“有效利用率”。虽然这类创新不直接体现在模型参数规模上，却可以让同样规模的算力集群释放出更高的训练效率，从而间接提升模型能力的上限。

类似的底层创新，并不只发生在网络层。

例如在芯片层面，以华为昇腾、寒武纪、海光、壁仞等为代表的厂商，正在通过不同技术路径推动国产算力体系从“可用”走向“高效”。这之中，有的厂商通过架构设计提升通用性与扩展性；有的则在特定场景中优化算力密度或能效比；有的通过兼容主流软件生态降低迁移成本，逐步构建起从芯片到服务器乃至数据中心的一体化能力。而这些路径的共同点在于不再简单追求“对标某一款GPU”，而是围绕实际应用重构算力效率。

与此同时，一些更具前瞻性的创新开始出现在“系统级组织方式”上。例如以华为CloudMatrix为代表的超节点架构，通过高速互联将数百颗芯片组成一台“超级AI服务器”，以系统能力弥补单芯片性能差距；又如光互连、硅光交换等新型网络技术，也在尝试从物理层突破传统电子互联的带宽与延迟瓶颈。

类似的思路也体现在国内算力系统的工程实践中。以中科曙光ScaleX万卡集群为代表，其通过在万卡规模下对计算、存储与网络进行一体化设计与调度，实现跨节点的大规模协同训练能力。在这种体系中，真正重要的已不再是单一芯片或单台服务器的性能，而是整个集群在通信效率、任务调度与资源利用率上的整体表现，本质上也是在通过系统级设计提升整体算力的可用性和有效性，为大模型迭代提供更稳定、高效的运行基础。

其实无论是华为，还是曙光，其探索的共同点在于，它们不再局限于单一硬件指标的比拼，而是通过重构算力的组织方式，在既有条件下逼近甚至重塑性能边界。

此外，在计算范式层面，中国厂商也在尝试“绕开约束”。例如围绕FP8低精度计算的实践，已经证明在不依赖最先进制程的情况下，通过算法与硬件协同优化，同样可以实现大模型训练效率的大幅提升，而这类创新路径，本质上是在重写“算力=先进制程”的单一逻辑。

如果我们把这些探索放在一起不难发现一个重要变化，那就是中国AI算力正在从过去的“单点替代”，逐步走向“体系化重构”。

写在最后：综上，我们认为，OpenClaw的爆火，是中国AI应用能力的一次集中释放，但并没有改变一个更深层的现实，即基础大模型仍在追赶，算力体系仍存约束。

不可否认，应用可以放大能力，但却无法替代能力本身。而当行业沉浸于“又一个爆款”的热闹时，更需要看到底层的差距与方向。基于此，对中国AI的未来，不在于还能诞生多少个中国版的OpenClaw，而是我们能否凭借在模型、算力与系统架构等的底层创新完成从追赶到定义的跃迁。