Fable 5下线四天后,接盘的竟是一个MIT开源的中国模型

2026.06.17 17:25
2026年6月12日,Anthropic应美国政府出口管制要求将Fable 5全球下架。四天后,中国AI公司Z.ai发布开源模型GLM-5.2,以51分登顶Artificial Analysis Intelligence Index开源模型榜首、全球第四,在Frontend Code Arena上仅次已下线的Fable 5。MIT开源、成本仅为GPT-5.5的六分之一、无地缘限制——三重优势叠加,正在改写企业采购AI能力的默认选项。

2026年6月12日,Anthropic在收到美国政府出口管制指令后,将Claude Fable 5和Mythos 5从全球所有用户面前撤下——Fable 5上线仅三天。一时间,全球开发者在社交平台上集体追问同一个问题:前端竞技场第一把交椅,谁来接?

四天后,答案以一种出人意料的方式出现了。

6月16日,中国AI公司Z.ai(原智谱AI)发布GLM-5.2,一个约750B参数的MoE开源模型。它立刻在Artificial Analysis Intelligence Index v4.1上拿到51分,位列全球第四——排在它前面的只有已下线的Fable 5(60分)、Claude Opus 4.8(56分)和GPT-5.5 xhigh(55分)。在Frontend Code Arena上,它直接冲到第二,仅次于已经无法访问的Fable 5。在Design Arena上,它甚至以1360的ELO分击败了Fable 5,拿到第一。

更重要的数字藏在一个看似简单的对比里:GLM-5.2的规模与上一代GLM-5.1完全相同——约750B总参数、40B激活参数——却在Intelligence Index上从40分跳到51分,净增11分。同体量下这种级别的能力跃迁,在开源模型的历史上前所未见。

而它的API定价与GLM-5.1持平:1.40美元/百万输入token,4.40美元/百万输出token。据VentureBeat测算,GLM-5.2在多个长程编码基准上以对标乃至超越GPT-5.5的性能,成本仅为后者的六分之一。

这不是一次普通的模型更新。这是一次针对封闭模型堡垒的系统性冲击——而且它恰好发生在全球AI供应链正在经历最剧烈断裂的当口。

一、一个MIT开源模型,凭什么能叫板Opus和GPT?

要理解GLM-5.2为什么能站到全球第四的位置,不能只看一个总分。把基准测试拆开看,你会发现一个清晰的模式。

先从最硬核的长程编码基准看起。在FrontierSWE上,GLM-5.2拿到74.4%,仅比Claude Opus 4.8的75.1%低不到一个百分点,同时以1.8个百分点的优势超越GPT-5.5(72.6%)。这个测试由Proximal执行,在1M上下文长度、最大努力水平和128K最大输出token的条件下完成,模拟的是小时到数十小时级别的开放式技术项目——系统优化、大规模代码构建、应用ML研究。

在PostTrainBench上,GLM-5.2更是以34.3%对25.0%的成绩大幅碾压GPT-5.5,仅次于Opus 4.8。这个基准的设计思路颇为刁钻:给每个Agent一块H100 GPU,让它通过后训练去提升小模型的能力,考察的是Agent在自主工程任务中的长期规划和执行能力。

在SWE-Marathon这个超长程软件工程基准上,GLM-5.2拿到13.0%,虽然与Opus 4.8的差距仍有13个百分点,但依然压过GPT-5.5的12.0%。SWE-Marathon的题目包括构建编译器、优化内核、开发生产级服务——这已经不是“辅助编程”,而是“自主工程”的范畴。

在标准编码基准上,同样没有含糊。SWE-bench Pro从GLM-5.1的58.4分跃升至62.1分,超越GPT-5.5的58.6分。Terminal-Bench 2.1从63.5分跃升至81.0分,仅落后Opus 4.8的85.0分4分,同时把Gemini 3.1 Pro的74.0分甩在身后。MCP-Atlas工具使用评测中,GLM-5.2拿到77.0分,压过GPT-5.5(75.3),紧咬Opus 4.8(77.8)。Humanity's Last Exam配备工具后,GLM-5.2以54.7分力压GPT-5.5的52.2分。

把这些数字拼在一起,结论很难回避:GLM-5.2在所有涉及长程工程任务的基准上全面压制GPT-5.5,在多数基准上与Opus 4.8的差距已经缩小到个位数百分点。一个开源模型,正在逼近、甚至在部分维度上已经开始超越封闭模型的顶尖水准。

二、“IndexShare”和“1M上下文”:技术上究竟发生了什么?

GLM-5.2的能力跃迁不是靠堆参数堆出来的——它的总参数量和上一代完全一样。真正的突破来自两项架构创新。

第一项名为IndexShare。在标准的稀疏注意力(DSA)机制中,随着上下文长度扩展,索引器(indexer)的dot product计算和topk操作会吃掉大量算力。GLM-5.2的方案出奇简单:每四层Transformer共享一个轻量级索引器,将索引器放置在第一层,topk索引供后续四层复用。这一步直接在1M上下文长度下将每token的计算量(FLOPs)削减了2.9倍。

这句话值得拆开来看:GLM-5.2不是“支持”1M上下文窗口——而是让1M上下文在工程实践中真正可用。很多模型早早claim了1M上下文,但当prompt超过100K token后,回答质量就开始断崖式下跌。Z.ai的做法是从mid-training阶段就用128K序列长度训练IndexShare结构,确保模型在超长上下文下不会“遗忘”前半段的内容。更具体地说,Z.ai在编码Agent场景下大幅扩展了1M上下文的训练覆盖——包括大规模实现、自动化研究、性能优化和复杂调试——让长上下文成为一个“工程基底”而不仅仅是营销数字。

第二项是改进的多token预测层(MTP)。在GLM-5.1中,MTP层的训练和推理之间存在不一致性,限制了投机解码的接受率。GLM-5.2通过同时应用IndexShare和KVShare到MTP层,消除了这一差异,将投机解码的接受长度提升了20%。这在生产环境中意味着更高的推理吞吐量和更低的延迟。

此外,Z.ai在GLM-5.2中引入了可选的“思考努力水平”(effort level)控制。在Max模式下,模型将全部算力投入推理,每个任务消耗约85K输出token;切换到High模式,仅牺牲少量分数即可将token输出减半——这对延迟敏感的生产环境是一个非常重要的实用杠杆。

三、不只是技术好,更是“筹码”好:开源+低价+无地缘限制

如果GLM-5.2只是另一个高分闭源模型,这条新闻的份量会小得多。真正让它成为“信号”的,是三重复合优势。

第一重:纯正的开源。GLM-5.2以MIT许可证发布,无地域限制,核心权重即刻可在HuggingFace下载。任何企业都可以自由下载、部署、微调,成本仅为自身算力和电力。对于金融、医疗、政务等对数据主权有刚需的行业,这意味着可以在私有云或裸金属服务器上运行一款全球顶尖模型,完全不受第三方的API政策变化影响。

第二重:激进的定价。GLM-5.2的API定价与GLM-5.1完全相同——1.40美元/百万输入token、4.40美元/百万输出token。而据VentureBeat计算,GLM-5.2在多个长程编码基准上以接近或超越GPT-5.5的性能,成本仅为后者的六分之一。Z.ai同步推出的Coding Plan订阅更是将个人开发者门槛拉到地板:Lite档12.60美元/月(年付),支持轻量迭代;Pro档50.40美元/月,面向中型仓库的日常开发;Max档112美元/月,面向重度工作负载。在AI Agent被大规模部署到生产环境的当下,一个每天执行数千次工具调用的编码Agent,使用GPT-5.5和GLM-5.2之间的月度成本差可能达到五位数美元。

第三重——也是当前最不可忽视的一重:无地缘政治风险。Fable 5下线的根本原因是美国政府以国家安全为由,要求Anthropic禁止任何外国公民(无论身处美国境内或境外)访问Fable 5和Mythos 5。为了确保合规,Anthropic不得不将这两款模型对所有用户下架。GLM-5.2作为一个MIT开源的中国模型,恰恰处在这一管制体系的对面:任何国家的开发者都可以用,任何企业都可以部署,不存在“某天早上醒来发现API被封”的地缘政治风险。

这三重优势叠加在一起,指向的是一个结构性转变:当一个开源模型同时在性能上逼近封闭模型的顶尖水平、在成本上大幅领先、在可用性上不受地缘政治约束时,企业采购AI能力的“默认选项”正在被改写。

四、一场正在被改写的牌局

GLM-5.2的排名本身只是一个数据点。但把它放到更大的棋盘上去看,几张牌正在同时翻面。

第一张牌:Fable 5的下线创造了一个巨大的可用性真空。Frontend Code Arena第一的位置空出来了,而GLM-5.2是唯一一个能立刻填补这个位置的模型。开发者社区的迁移已经在发生——在Fable禁用的同一周,GLM-5.2被适配到了Claude Code、OpenClaw、Cline、Kilo Code、Crush、Factory等超过20个第三方编程环境中。这个生态联动速度,说明市场不是在“观望”,而是在“迁移”。

第二张牌:开源模型与闭源模型的性能差距正在以超过预期的速度收窄。在Artificial Analysis Intelligence Index v4.1上,GLM-5.2与GPT-5.5的差距只有4分,与Opus 4.8的差距只有5分。在FrontierSWE上,这三个模型几乎在同一水平线上。而GLM-5.2从5.1迭代到5.2仅用了一个小版本号——这意味着开源模型的能力曲线依然陡峭。如果把DeepSeek V4 Pro(44分)、Kimi K2.6(43分)和MiniMax M3(44分)这些其他开源选手也放到同一张图上,GLM-5.2领先第二名开源模型7分的优势,让开源阵营的整体逼近趋势更加触目。

第三张牌:成本优势正在从“锦上添花”变成“核心竞争力”。这不是一个理论判断,而是正在发生的采购逻辑转移。当一个编码Agent的月费可以从几百美元降到几十美元,且性能损失在五个百分点以内,技术决策者的算术会非常直接。更关键的是,GLM-5.2的Coding Plan是一口价订阅,不按token计费——这对预算可预测性要求极高的企业IT部门来说,是一个简单却致命的差异化。

这张牌桌上,坐着的不是Z.ai和Anthropic两家公司。OpenAI、Google、DeepSeek、Kimi都在场。GLM-5.2最值得关注的不是它“第几名”,而是它代表了一种新的竞争范式——不再以“谁最强”为唯一坐标,而是以“谁最实用、谁最便宜、谁最自由”为综合判断标准。

Fable 5下线后的第四天,全球AI竞争的一个残酷真相浮出水面:最强大的模型如果不能用,那就不是最强——而下一个“最强”,可能是你硬盘上的一个MIT开源文件。

作品声明:内容由AI生成