开源不再是追赶游戏

2026.06.28 04:23
2026年上半年,DeepSeek V4 Flash、GLM 5.2、MiniMax M3和NVIDIA Nemotron 3 Ultra四款开源大模型相继登场,将开源与封闭前沿的智能差距稳定在3至6个月的窗口内已超过18个月。当美国政府限制最强封闭模型出口、成本成为规模化AI部署的核心变量时,开源正在从足够好变成更好的选择。

2026年6月,一个判断不再需要加问号:开源大模型已不是封闭前沿的廉价备胎,它们正在成为主力。

过去三个月,四款开源模型以令人窒息的节奏接连登场。DeepSeek V4 Flash 在 SWE-bench Verified 上拿到 79.0%,距离自家旗舰 V4 Pro 的 80.6% 仅差 1.6 个百分点,而后者已追平 GPT-5.5 级别的智能体编程能力。智谱的 GLM 5.2 在关键智能体基准上与 Anthropic Opus 4.8 的差距缩小到了一个百分点以内,成本只有后者的五分之一。MiniMax M3 把多模态和百万级上下文窗口塞进了一款开源模型。NVIDIA 在 Computex 上发布了 Nemotron 3 Ultra,550B 参数和 55B 活跃参数使其成为美国开源阵营迄今最大的模型。

这场竞赛的底层逻辑也在发生转变。美国政府对 Anthropic Fable 5 和 Mythos 5 实施出口限制,OpenAI 的 GPT-5.6 Sol 被要求仅限“小范围可信合作伙伴”使用。封闭模型的壁垒越筑越高,开源阵营却越来越强。

这些事件指向一个信号:开源与封闭前沿之间的差距稳定在 3 到 6 个月的窗口内已超过 18 个月,且未见扩大趋势。OpenRouter 团队在 2026 年 6 月 27 日的报告中直接给出了判断:前沿实验室目前并没有加速甩开开源实验室。当成本成为规模化 AI 部署的核心变量,开源正在从“足够好”变成“更好的选择”。

四款模型,四种路线

2026 年上半年最值得关注的四款开源模型,分别代表了通向“开源即前沿”的四条不同路线。

DeepSeek V4 Flash:跨越智能体卢比孔河

DeepSeek V4 Flash 是第一款让工程团队毫不犹豫地将其塞进真实智能体管线、作为 Anthropic 或 OpenAI 级别模型替代品的开源模型。它的更大版本 V4 Pro 在 SWE-bench Verified 上拿到 80.6%,是目前所有开源模型在这个基准上的最高分。Flash 真正破圈,因为它在 Pareto 最优曲线上同时卡住了性能和成本。

Flash 是一个约 284B 参数、约 13B 活跃参数的 MoE 模型,100 万 Token 上下文窗口,MIT 许可,发布于 2026 年 4 月。DeepSeek 一手 API 标价输入 $0.14/百万 Token、输出 $0.28/百万 Token,加上缓存后实际低至 $0.029/百万 Token 输入。这一价格大约是 GPT-5.5 输出成本的 150 分之一。DeepSeek 在发布时将其作为 75% 的折扣定价,自 5 月起转为永久价格。

但低价有代价。DeepSeek 的一手 API 将数据路由至中国服务器,服务条款允许将用户数据用于训练。西方托管商如 Fireworks、Together、DeepInfra 不保留训练数据,价格约为一手价的两倍,但价值仍然惊人。OpenRouter 每个模型页面的提供商选项卡中标注了提供商所在国和数据政策,允许精细控制可接受的隐私标准。

DeepSeek 的低价背后是否有训练数据的价值补贴或算力补贴支撑,尚无定论。但一个确定的事实是:这一低价已在所有提供商之间制造了竞争性价格下探,使这一级别的智能前所未有地廉价。

不过 Flash 并非万能。纯文本,无图像或视频输入。模型更侧重于技术任务,在写作和语气把握上满意度较低。用户反馈显示 Flash 需要非常具体的指令才能发挥最佳性能,不适合依赖模型自主判断的开放场景。

GLM 5.2:开源质量的新天花板

如果 DeepSeek V4 Flash 是开源智能体的开路先锋,那么智谱的 GLM 5.2 就是开源综合智能的新天花板。

2026 年 6 月,智谱发布了 GLM 5.2。这是一款约 753B 参数的开源大模型,MIT 许可,100 万 Token 上下文窗口。CNBC 的报道标题直接点明了它的意义:China's Zhipu is closing in on top U.S. AI models with Anthropic and OpenAI held back。在一项关键智能体基准测试中,GLM 5.2 与 Anthropic Opus 4.8 的差距缩小到了不到一个百分点,成本大约是后者的五分之一。

在 Artificial Analysis Intelligence Index v4.1 上,GLM 5.2 以 51 分的综合智能指数大幅领先所有开源对手,比 DeepSeek V4 Flash 的 37 分高出 14 分,比 Nemotron 3 Ultra 的 48 分也高出 3 分。Z.AI 的 API 定价为输入 $1.40/百万 Token、输出 $4.40/百万 Token,组合价 $5.80,订阅方案低至每月 $3 到 $6(Lite 版)起。

GLM 5.2 的出现时机也充满深意。在美国政府对最强封闭模型实施出口限制的背景下,一款可以自由下载、修改和本地部署的开源模型,对全球企业的吸引力大幅提升。与 DeepSeek 一样是纯文本模型,一手 API 走中国服务器,但 Z.AI 并未引发同样程度的数据隐私争议,且通过西方提供商以类似价格水平提供服务。

MiniMax M3:被低估的多模态黑马

四款模型中,MiniMax M3 是唯一一款真正原生多模态的开源模型。它支持文本、图像和视频输入,拥有 100 万 Token 上下文窗口,基于自研 MiniMax Sparse Attention(MSA)架构。MSA 用 KV-block 选择替代全注意力,将百万 Token 级别的推理成本压缩到上一代的约 1/20。OpenRouter 将其描述为“面向长期、多步骤任务而非单轮执行的模型”。

OpenRouter 上 MiniMax M3 的综合智能指数为 42,公开定价为 $0.30/$1.20 每百万 Token(输入/输出),在西方托管商上不保留训练数据。对于需要同时处理文本、截图、UI 状态和多模态输入的规模化部署,比如企业级文档分析或智能体视觉理解,M3 提供了一个无需维护多个模型的单一方案。

不过 M3 有明显的不确定性。Tech Times 指出 MiniMax 发布的基准测试得分均为公司自测,且截至 6 月初,承诺的开源权重尚未实际释出。此外,中国《国家情报法》要求境内 AI 企业“支持、协助、配合”国家情报工作,这一义务适用于通过公司 API 处理的每一个 Token。

NVIDIA Nemotron 3 Ultra:美国开源的一面旗

如果中国三强代表了开源的智能前沿,NVIDIA Nemotron 3 Ultra 代表的则是“美国制造”的开源主权。

2026 年 6 月 1 日,黄仁勋在台北 Computex 上发布了 Nemotron 3 Ultra,550B 参数、55B 活跃参数的 MoE 模型。独立评测机构 Artificial Analysis 进行了发布前评估,给予综合智能指数 48。Decrypt 的评测标题写道:Nvidia Releases Its Best Open AI Model Yet, But Still Lags Behind China。

Nemotron 3 Ultra 的智能指数 48 低于 GLM 5.2 的 51,但它有一个中国对手无法匹敌的差异化优势:完整的 NVIDIA 生态,包括 CUDA、NIM 微服务、DGX Cloud,以及“美国制造”带来的地缘政治确定性。定价方面,输入 $0.423/百万 Token、输出 $2.61/百万 Token,远高于中国对手,但 NVIDIA 提供了免费额度(+:free),用户无需支付即可试用。

NVIDIA 已在着手 Nemotron 4 的开发。今年 3 月组建的 Nemotron Coalition,一个由八家 AI 实验室组成的联盟,包括 Mistral AI 和 Perplexity,正通过 DGX Cloud 基础设施协同开发下一代开源基础模型。

差距没有扩大,成本却在暴跌

综合 Artificial Analysis Intelligence Index v4.1 的数据,四款开源模型的得分分别为:GLM 5.2 为 51,Nemotron 3 Ultra 为 48,MiniMax M3 为 42,DeepSeek V4 Flash 为 37。作为参照,封闭前沿的最高水平,Claude Opus 4.8 和 GPT-5.5,分别为 55.7 和 54.8。

差距确实存在,但关键不在于差距本身,而在于它没有扩大。过去 18 个月,开源维持着距离前沿 3 到 6 个月的追赶窗口。与此同时成本的天壤之别正在改变企业的决策逻辑。从前沿到开源能带来数量级级别的节省,而且任何固定智能水平的成本都还在持续下降。

当政策关上大门,开源就是开着的窗

政策正在成为开源模型市场份额增长的关键催化剂。

2026 年 6 月,美国政府要求 Anthropic 将其领先的 Fable 5 和 Mythos 5 模型下线,以避免被外国实体利用。OpenAI 的 GPT-5.6 系列也被限制仅限“小范围可信合作伙伴”。这些举措正在产生一个工业级规模的意外后果:全球企业,尤其是美国以外的企业,正在以前所未有的速度转向开源。

最标志性的事件发生在 6 月 22 日。SpaceX 与开源 AI 初创公司 Reflection AI 签署了一份巨额算力协议。Reflection 将每月支付 1.5 亿美元,从 2026 年 7 月 1 日至 2029 年,获取 SpaceX 位于孟菲斯 Colossus 2 数据中心内 NVIDIA GB300 芯片的即时访问权。按此计算,合同总价值约 63 亿美元,双方均有权在头三个月后提前 90 天通知终止合约。

Reflection AI 成立于 2024 年,由两位前 Google DeepMind 研究者创立,获得英伟达支持。尽管尚未发布前沿级别的公开开源模型,但已开始与美国政府客户(包括五角大楼和美国能源部的 Genesis 项目)建立合作关系。Reflection 在一份声明中指出:最近的事件凸显了开源对 AI 生态的重要性,越来越多的国家和企业认识到完全依赖封闭模型的风险和成本。

怎么选?一张决策表

四款开源模型各有强项,选哪款取决于真实场景和愿意接受的取舍。

DeepSeek V4 Flash(智能指数 37,价格 $0.14/$0.28,纯文本)。当你的智能体管线需要一个前沿级别的替代品,且能接受纯文本和数据隐私的不确定性时。它在 SWE-bench 上的表现对于其定价来说是无可匹敌的。

GLM 5.2(智能指数 51,价格 $1.40/$4.40,纯文本)。当你想在开源世界里拿到最好的综合智能时。它目前是所有开源模型中智能最高的选择。

MiniMax M3(智能指数 42,价格 $0.30/$1.20,多模态)。当你需要多模态输入和长上下文,希望用单一模型覆盖所有任务类型时。性价比最高的多模态选择,但需实测验证其厂商自报的基准。

Nemotron 3 Ultra(智能指数 48,价格 $0.423/$2.61 + 免费额度,纯文本)。当你需要美国制造、完整的 NVIDIA 生态支持,且供应商和部署国别是优先考量时。

但有一条原则不变:选模型的唯一真理就是用你自己的任务去测试。

开源的时刻

2026 年 6 月,大模型行业正在经历一场安静的权力转移。曾经被视为追赶者的开源阵营已经证明了自己不只是一条可行的替代路线。在很多场景下,它已经是更好的选择。

不是因为开源模型已经全面超越了封闭前沿。而是因为当成本、主权、可用性和数据隐私被同时放在天平上时,天平正在倾斜。

DeepSeek 证明了一个开源模型可以成为你的智能体,而且只需几分钱。GLM 5.2 把开源智能的边界往前推了一大步。MiniMax 证明了多模态模型不必是天价。NVIDIA 用 Nemotron 3 Ultra 为美国开源阵营树起了一面旗。Reflection AI 和 Nemotron 4 的入局意味着下一步加速已经开始。

前沿实验室的优势正在从智能碾压变成品牌溢价。而在足够多的企业预算审查面前,品牌溢价并非不可化开的冰。

数据来源:OpenRouter.ai(2026 年 6 月各提供商加权平均价格及吞吐量),Artificial Analysis Intelligence Index v4.1(数据截止 2026 年 6 月 25 日),TechCrunch,CNBC,Decrypt,VentureBeat。

作品声明:内容由AI生成