GLM-5.2 在 2026 年 6 月 13 日发布时,智谱(Z.ai)讲了一个关于开放的故事:MIT 协议、开源权重、1M 上下文、最强国产 Coding 模型。但一个更复杂的故事在 API 层的定价表中展开——同一个模型,经过 22 个不同服务商托管,呈现出来的价格、速度和稳定性几乎像几个不同的产品。这是规则的改变,也是最容易被忽视的现实:当模型本身变成商品,竞争的主战场已经转移到了你根本看不见的地方。
模型纸面数据:753B MoE 的 IndexShare 架构
GLM-5.2 是智谱 GLM-5 家族的第三代产品。从 GLM-5(2026 年 3 月)到 GLM-5.1(5 月)再到 GLM-5.2(6 月),三个月连发三版。迭代速度背后是一次架构层面的关键换芯。
它采用了 IndexShare MoE 架构,总参数量 753B,每次推理激活约 40B 参数。IndexShare 在每四个稀疏层之间复用同一个 attention indexer,在 1M 上下文长度下将每 token 的 FLOPs 降低 2.9 倍。模型训练在 28.5T tokens 上完成,支持两种 reasoning effort 级别(high 和 xhigh),遵循 MIT 开源协议。
智谱自报的评测数据极具冲击力:AIME 2026 得分 99.2(超过 GPT-5.5 的 98.3 和 Opus 4.8 的 95.7)、GPQA Diamond 91.2、SWE-bench Pro 62.1、Terminal-Bench 2.1 得分 82.7。独立评测机构 Artificial Analysis 将其评为全球排名第一的开源权重模型,综合能力在所有模型中位列第四,仅次于少数几个闭源产品。
但分数只是故事的一面。API 层的定价才是开发者日常面对的真实战场。
四张面孔,一个模型
GLM-5.2 在 OpenRouter 上架后,迅速扩展到 22 个服务商。OpenRouter 的三种路由模式——Balanced(按价格+速度平衡分配)、Nitro(最快响应)、Exacto(固定某一家)——意味着用户体验到的成本和性能,在很大程度上取决于路由策略,而路由策略背后是 22 家服务商之间在价格、速度、稳定性三个维度上的激烈竞争。
先看价格最低的 DeepInfra。输入 $0.95/1M tokens,输出 $3.00/1M,缓存输入 $0.18/1M。延迟 1.12 秒,吞吐 30 tps,可用率 98.76%。输入价格比最贵的服务商低约 21%,输出价格低 37%。缓存价格仅 $0.18/1M,是四个主要服务商中最优的。
Provider 2 选择了截然不同的策略。输入 $0.98/1M,输出 $3.08/1M,价格与 DeepInfra 接近。但延迟高达 4.50 秒,几乎达到 DeepInfra 的 4 倍。其吞吐为 39 tps,暗示它可能采用了收一批请求再批量推理的架构——对实时交互不友好,但对批量处理任务是合理的取舍。
Provider 3 在吞吐维度上拔得头筹:56 tps 的输出速度,比最慢的服务商(21 tps)快 2.7 倍。延迟 1.96 秒,在速度和响应之间找到了较好的平衡点。但它的缓存价格高达 $0.5472/1M,是 DeepInfra 的 3 倍。
Provider 4 提供了最高的可用率:99.8%,比排名第二的高出整整 1 个百分点。但价格也最贵:输入 $1.20/1M,输出 $4.10/1M。输出价格比 DeepInfra 高出 37%。它在用稳定性换溢价——对于对可用性要求极高的生产环境,这 1% 的差距可能是生死线。
同一个模型,在不同的 Infra 提供商手里,输出价差 37%,吞吐差异 2.7 倍。
价差从何而来
原因藏在推理基础设施的三个差异化维度中。
硬件选型与部署密度。不同服务商使用的 GPU 型号、集群规模和部署策略各不相同。GLM-5.2 的 753B 参数体量意味着推理本身是算力密集型的,硬件差异会被放大。Artificial Analysis 的数据显示,GLM-5.2 在不同服务商之间的输出速度差异可达 1.8 倍以上(从 87.7 t/s 到 160.5 t/s)。
Prompt Caching 策略的隐形差距。OpenRouter 数据显示,通过 prompt caching,用户实际支付的价格可以比标价低 60%–80%。而不同提供商在缓存层的基础设施投入天差地别。Provider 3 的缓存价高达 $0.5472/1M,而 DeepInfra 的缓存价仅 $0.18/1M,其缓存命中后的实际价格比标价低了 81%。在长上下文场景下——这正是 GLM-5.2 的主打方向——prompt caching 的经济学效应尤其显著。
吞吐与延迟的工程取舍。Provider 2 的 4.50 秒延迟是所有服务商中最慢的,但吞吐反而达到了 39 tps,暗示它可能采用了较长的 batch size 来最大化 GPU 利用率。Provider 3 以 1.96 秒延迟拿到 56 tps 的吞吐,在速度和响应之间找到了较好的平衡点。而 DeepInfra 的 1.12 秒延迟结合最低的价格,对绝大多数开发者来说是最均衡的选择。
开源的平权与 Infra 层的分水岭
MIT 开源许可是故事的前半章。仅用一周时间,GLM-5.2 就出现在 22 个服务商和几乎所有的 AI 编码工具中——Devin、OpenCode Go、ZCODE CLI——覆盖面远超同期任何闭源模型。从表面看,开源的确实现了模型层面的平权。
但 API 层的定价分化揭示了一个更深层的结构:当模型本身变成一种可随意托管的商品,竞争的主战场就从谁训练出更好的模型转移到了谁以更低的成本推理这个模型。训练有壁垒——数据、算力、人才——推理同样有壁垒,只是形态不同。推理壁垒来自三个方面:硬件供应链的采购规模和议价能力、缓存基础设施的工程效率、以及针对特定模型架构的推理优化。这三项能力没有一个与服务商的品牌或模型训练能力直接相关,却决定了开发者最终为每个 token 支付多少。
对开发者而言,选模型只是一个起点。选哪家服务商、选什么路由策略、是否利用 prompt caching、需要低延迟还是高吞吐——这一系列决策叠加起来,最终的实际使用成本可能相差 2–3 倍。
不拥有一张 GPU 的分发之王
OpenRouter 是这个生态中一个精妙的架构节点。它不拥有任何 GPU,却通过路由层掌控了开发者与模型之间的每一次交互。它的三种路由模式实际上是在替开发者做服务商选择——当用户选择 Balanced 时,OpenRouter 会根据实时性价比在所有服务商之间分配请求,本质上是一个算法驱动的定价套利。
当一个模型在 OpenRouter 上有 22 个服务商时,模型本身已经不重要了,重要的是一键获得最佳性价比的管道。OpenRouter 不是在卖模型,而是在卖模型获取的流动性。GLM-5.2 的 2.46T tokens 月消耗量证明了这个流动性池的高效运转。跑在 OpenRouter 之上的 Novita AI 拿下了其中 27.2% 的 token 用量,成为单个占比最高的服务商。而 GMI(FP8)在输出速度上以 160.5 t/s 领先,是 Novita(87.7 t/s)的 1.8 倍,同时提供最低的混合价格。速度、价格和稳定性形成了一组不可能三角——没有一个服务商能同时做到三者最优。
谁赢?谁危险?
最大的赢家是开发者。22 个服务商的竞争意味着价格持续下行,性能持续提升。当 DeepInfra 把输入价格压到 $0.95/1M 而缓存价低至 $0.18/1M 时,一个开发者用 100 美元就可以跑超过 5 亿 tokens 的缓存推理。有开发者已经在 Reddit 上晒出单日消耗 1900 万 tokens 仅花费不到 3 美元的成绩单——这在一年前是不可想象的。
被挤压的是存量的高价推理服务商。当同一个模型的基准价格在不同服务商之间差到 37%,用户的忠诚度只存在于下一次 API 调用的距离之间。更危险的是缺乏 Infra 差异化的模型厂商。当隔壁服务商用你开源出来的模型,以一半的价格抢走了你的客户,你靠什么竞争?
模型是前线,但决战在推理层。谁把算力的每一分钱榨出最多的 token,谁就是下一个时代的赢家。






快报