开源追上闭源的最后一战：2026年12月3日的两种真相

Doubleword创始人Jamie Dborin用Artificial Analysis的18个基准发现：AI Intelligence Index显示开源将在2026年12月3日追上闭源，但18个基准的平均gap稳定在5个月未收窄。编码维度的突飞猛进让复合指标失真，而真正拉开差距的维度正在转向更难被优化的领域。

开源大模型会在2026年12月3日追上闭源前沿吗？一个疯传的预测说会。但同一个作者用18个基准拆开后发现，情况远没有这么简单。

一个日期，两种真相

2026年12月3日。这不是产品发布会，不是财报日，也不是行业峰会。这是Doubleword创始人Jamie Dborin给出的开源大模型追上闭源前沿的确切日期，距离今天不到150天。预测来自一张在Twitter上疯传的图表：Artificial Analysis Intelligence Index上开源追平闭源所需的月数曲线从2024年夏季开始下坠，趋势线外推，精准指向12月3日归零。

但Dborin没有止步于这个综合得分。他把全部18个独立基准逐一拆解并重复外推分析，用箱线图展示差距分布。结果令人意外：18个基准的平均缺口在过去两年中几乎是一条水平线，始终徘徊在5个月左右，相当一部分基准的margin甚至在小幅扩大。同一个问题，同一批模型。一个基准画出的归零线，被18个基准的原地踏步否决了。

编码的突围

拆开18个基准的面板，一个维度格外扎眼：编码。AI Intelligence Index那条归零曲线，编码基准的贡献占了绝对大头。从2024到2025年，开源模型编码从落后15个月以上缩小到仅1到2个月。到2026年5月，DeepSeek V4-Pro在SWE-Bench Verified上拿到80.6%，与Claude Opus 4.7和GPT-5.5的82%差距不到1.5个百分点。Kimi K2.6以54分排AA Intelligence Index第四，仅次于57分的Claude Opus 4.7和Gemini 3.1 Pro以及60分的GPT-5.5。

编码任务有结构性优势：目标明确、输出可验证、GitHub上数以亿计的公开代码仓库作为训练数据。但编码只是18个基准中的一项，AI Intelligence Index的综合走势被编码维度的突飞猛进绑架了。

一把尺子量不出世界的厚度

AI Intelligence Index是复合指标，自然会把所有子项平均。但当不同维度进步速度不均匀时，平均后的结论对实际决策的指导价值极为有限。在GPQA Diamond上，GPT-5.5达到93.18%，而Kimi K2.6为89.14%，超过4个百分点的差距。在Humanity's Last Exam、CritPt、AA-LCR等考验模型真正理解能力的基准上，闭源前沿保持显著领先。开源追上闭源这个叙事，在复合基准上是否成立，完全取决于编码能力在总分中的权重。

为什么编码追得快，其他维度追得慢？

评估标准的清晰度是关键变量。PR是否解决issue是二元结果，让Benchmark优化极其高效。训练数据充裕程度也起作用——科学推理和长文本理解的高质量数据远比代码稀缺。但最底层的驱动力是商业回报：编码助手是当前企业为AI付费的第一大场景，Copilot、Cursor等产品年收入数十亿美元，资源自然向这个方向集中。但这带来一个隐患：编码的虚假饱和正在形成。当分数普遍逼近80%以上，真正差距正在转移到更难被优化的维度上。

可货币化的差距下降得更快

GPT-5.5的输出价格为每百万Token 30美元，Claude Opus 4.7为25美元。性能最接近的开源模型Kimi K2.6只需3.50美元，DeepSeek V4-Flash更是低至0.28美元。Interconnects AI的分析师Nathan Lambert精准指出：可货币化的差距比能力差距下降得更快。对于大多数企业场景，足够好的临界点已经跨过。

谁赢了，谁危险了？

对企业的好消息是选择变多了。把闭源API预算缩减70%到90%而只付出5%到15%的能力折损，对绝大多数场景都是一笔划算的生意。中国的AI实验室——DeepSeek、Moonshot、智谱、阿里——用MIT等协议发布的模型正成为私有化部署首选。对OpenAI、Anthropic和Google，这是紧迫的定价压力。闭源实验室必须不断重新定义前沿的含义才能维持定价权。

最后一个问题

Dborin的数据还暗示gap可能正在重新扩大。多个非编码基准的追赶速度在变慢甚至逆转。开源模型在好优化的维度上快速追赶，闭源前沿则不断开拓更难优化的新维度。这场竞赛的本质不是固定距离的赛跑，而是闭源实验室不断向前移动终点线的追逐战。也许开源会在12月3日的AI Intelligence Index上归零。但如果闭源在那天之前早就跑向了下一个更难测量的新维度，归零的意义还有多大？开源并没有在追闭源。它在追一个闭源不断向后设的终点线。