开源大模型会在2026年12月3日追上闭源前沿吗?一个疯传的预测说会。但同一个作者用18个基准拆开后发现,情况远没有这么简单。
一个日期,两种真相
2026年12月3日。这不是产品发布会,不是财报日,也不是行业峰会。这是Doubleword创始人Jamie Dborin给出的开源大模型追上闭源前沿的确切日期,距离今天不到150天。预测来自一张在Twitter上疯传的图表:Artificial Analysis Intelligence Index上开源追平闭源所需的月数曲线从2024年夏季开始下坠,趋势线外推,精准指向12月3日归零。
但Dborin没有止步于这个综合得分。他把全部18个独立基准逐一拆解并重复外推分析,用箱线图展示差距分布。结果令人意外:18个基准的平均缺口在过去两年中几乎是一条水平线,始终徘徊在5个月左右,相当一部分基准的margin甚至在小幅扩大。同一个问题,同一批模型。一个基准画出的归零线,被18个基准的原地踏步否决了。
编码的突围
拆开18个基准的面板,一个维度格外扎眼:编码。AI Intelligence Index那条归零曲线,编码基准的贡献占了绝对大头。从2024到2025年,开源模型编码从落后15个月以上缩小到仅1到2个月。到2026年5月,DeepSeek V4-Pro在SWE-Bench Verified上拿到80.6%,与Claude Opus 4.7和GPT-5.5的82%差距不到1.5个百分点。Kimi K2.6以54分排AA Intelligence Index第四,仅次于57分的Claude Opus 4.7和Gemini 3.1 Pro以及60分的GPT-5.5。
编码任务有结构性优势:目标明确、输出可验证、GitHub上数以亿计的公开代码仓库作为训练数据。但编码只是18个基准中的一项,AI Intelligence Index的综合走势被编码维度的突飞猛进绑架了。
一把尺子量不出世界的厚度
AI Intelligence Index是复合指标,自然会把所有子项平均。但当不同维度进步速度不均匀时,平均后的结论对实际决策的指导价值极为有限。在GPQA Diamond上,GPT-5.5达到93.18%,而Kimi K2.6为89.14%,超过4个百分点的差距。在Humanity's Last Exam、CritPt、AA-LCR等考验模型真正理解能力的基准上,闭源前沿保持显著领先。开源追上闭源这个叙事,在复合基准上是否成立,完全取决于编码能力在总分中的权重。
为什么编码追得快,其他维度追得慢?
评估标准的清晰度是关键变量。PR是否解决issue是二元结果,让Benchmark优化极其高效。训练数据充裕程度也起作用——科学推理和长文本理解的高质量数据远比代码稀缺。但最底层的驱动力是商业回报:编码助手是当前企业为AI付费的第一大场景,Copilot、Cursor等产品年收入数十亿美元,资源自然向这个方向集中。但这带来一个隐患:编码的虚假饱和正在形成。当分数普遍逼近80%以上,真正差距正在转移到更难被优化的维度上。
可货币化的差距下降得更快
GPT-5.5的输出价格为每百万Token 30美元,Claude Opus 4.7为25美元。性能最接近的开源模型Kimi K2.6只需3.50美元,DeepSeek V4-Flash更是低至0.28美元。Interconnects AI的分析师Nathan Lambert精准指出:可货币化的差距比能力差距下降得更快。对于大多数企业场景,足够好的临界点已经跨过。
谁赢了,谁危险了?
对企业的好消息是选择变多了。把闭源API预算缩减70%到90%而只付出5%到15%的能力折损,对绝大多数场景都是一笔划算的生意。中国的AI实验室——DeepSeek、Moonshot、智谱、阿里——用MIT等协议发布的模型正成为私有化部署首选。对OpenAI、Anthropic和Google,这是紧迫的定价压力。闭源实验室必须不断重新定义前沿的含义才能维持定价权。
最后一个问题
Dborin的数据还暗示gap可能正在重新扩大。多个非编码基准的追赶速度在变慢甚至逆转。开源模型在好优化的维度上快速追赶,闭源前沿则不断开拓更难优化的新维度。这场竞赛的本质不是固定距离的赛跑,而是闭源实验室不断向前移动终点线的追逐战。也许开源会在12月3日的AI Intelligence Index上归零。但如果闭源在那天之前早就跑向了下一个更难测量的新维度,归零的意义还有多大?开源并没有在追闭源。它在追一个闭源不断向后设的终点线。






快报