AI 巨头，走入黑暗森林-钛媒体官方网站

文 | 象先志

大刘在《三体》中写过一个后来被无数次引用的意象——黑暗森林。每个文明都是带枪的猎人，谁先暴露自己，谁先死。森林里不是没有人，是每个人都知道亮灯会招来子弹，所以大家都熄灯。

2026年春天，顶级AI实验室们，走入了这样的黑暗森林。

4月16日，Anthropic 率先发布 Claude Opus 4.7。同一天，他们做了一个反常的动作——公开承认 Opus 4.7 的性能并不及一个尚未发布的模型 Mythos，理由是 safety concerns。（安全考量）

4月23 日，OpenAI 在官网挂出 GPT-5.5。同一天，Anthropic 又在官方博客发了一篇叫 “An update on recent Claude Code quality reports” 的事故复盘报告，承认过去一个多月 Claude Code 确实变笨了——一个放新牌，一个补认错。但这位“新晋王者”几乎是在炫耀：我们承认 Claude 暂时变笨——但你别忘了，我们手里还藏着一把 Mythos 没出。

4月24 日，“神秘的东方力量” DeepSeek V4 Preview 上线，梁文锋团队第一次把模型和华为昇腾 950PR 深度绑定做官宣；但所有人都看明白了——真正“满血”的 V4 Pro Max，要等昇腾 950 超节点下半年量产之后才能放出来。

三家公司，三个动作。表面是各自的产品节奏，但拼在一起看，一件事浮出来：

每一家手里都握着至少一把“枪”——一个比公开版本更强的模型、一个还没轮到公众的下一代架构、一片还没大规模铺开的芯片超节点。但没有一家敢先把这把枪举起来。

因为在这个行业里，“先亮”的代价从来都不止泄密那么简单。先亮，意味着把自己的能力上限亲手交给对手做参照系；意味着率先承担安全审视、监管收紧、舆论压力的全部火力；意味着把自己变成下一轮所有竞对都要瞄准的那个移动靶子。森林里没有英雄主义——每一个先开枪的人，都把自己变成了下一个被瞄准的人。

所以猎人们最理性的选择，是熄灯、屏息、把武器藏在背后。

这就是博弈的最优解。

Anthropic的有恃无恐

Claude 这一边，在过去的一个月，几乎上演了最糟糕的一次版本发布。

早早更新完 Opus 4.7，Anthropic 仍旧霸榜各种榜单，而且手里还藏着只提供给企业客户的 Mythos——俨然一副不紧不慢的姿态。

但 Opus 4.7 的这一周期，几乎是 Claude 用户体验最差的一次，“差评如潮”。

3 月初，Anthropic 改了 Claude Code 的默认推理深度，从 high 调到 medium。这个决定的出发点可以理解：high 模式下 UI 经常看起来像卡死了一样，响应慢得让付费用户抓狂。但问题是，他们当时没有公布。

3 月底，又上线了一个“效率优化”——如果 Claude Code 会话空闲超过一小时，系统就会清掉旧的 reasoning block。按设计，这是为了省算力。实际跑起来的效果，是每一轮对话之后 Claude 都像失忆，把上下文忘得干干净净。开发者社区那几周涌进大量吐槽：“Claude 开始不记得我上一轮让它干什么了。”

直到近期，第三件事发生了——在系统提示里加了一条压缩 verbosity 的指令。按 Anthropic 后来自己承认的说法，这条指令让 Claude Code 的编码质量直接跌了 3%。

三件事叠在一起，才有了 AMD 的一位 senior director 在 GitHub 上写下的那句话——“Claude has regressed to the point it cannot be trusted to perform complex engineering”（Claude 已经退化到无法再被信任去完成复杂工程类任务）。Axios 4 月 16 日那篇 “Anthropic's AI downgrade stings power users” 把它抬到了主流视野。

然后 Anthropic 才承认，确实有点问题。

4月7 日，他们悄悄回滚了 reasoning effort 的调整；4 月 10 日修掉了 cache 的 bug；4 月 20 日撤掉了压缩 verbosity 的系统提示。但真正的事故复盘报告，等到了 4 月 23 日才发出来——而这恰好是 GPT-5.5 公开发布的当天。

这种带着一丝“哦，我的工程策略有点 bug，修复就好了”的轻蔑感，和 OpenAI 的重量级发布只在前后脚之间。很难说这是巧合。

更耐人寻味的是， Opus 4.7 发布的时候，Anthropic 顺带做了一个反常的动作：公开承认 Opus 4.7 的性能不及一个尚未发布的模型——Mythos。这很明显是一种“战略性退守”——Anthropic 把最强能力留在企业端、不急于推向大众，因为团队还没准备好把 Mythos 放出去。

这个说法可以信。但从商业叙事的角度看，另一半同样真实：Anthropic 等了六周才公开承认 Claude Code 在退化，等到 OpenAI 要放新牌的那一天才把问题端出来。如果不是同行压力足够大，如果不是 Opus 4.7 已经证明了“我们还有后手”，这份声明可能永远都不会到来。

在 Claude 这一侧，挤牙膏不是指刻意阉割能力，而是：能力的释放节奏、对问题的披露节奏，都跟着竞对的节奏走。

拿出自己最前沿的能力，注定会被当做靶子打。又或者说，在 Anthropic 看来，4.6 对竞争对手造成的压力都还没散去——既然如此，更强的牌没必要现在就打出来。

OpenAI 的故技重施

如果 Anthropic 是“藏着一个 Mythos 不发”，那 OpenAI 这一侧的挤牙膏更隐蔽——它把能力的释放权，留在了自己服务器的负载曲线和一个叫 auto-router 的分档机制里。

4月23 日 GPT-5.5 发布的同一天，Simon Willison（Django 框架共同创始人、AI 圈知名独立评测者）在自己的博客里写了一句审慎的话：“It's not a dramatic departure from what we've had before.”（这不是一次戏剧性的飞跃）。

他顺手补了一条信息很关键：GPT-5.5 是自 GPT-4.5 之后 OpenAI 第一次完全重训的基础模型；也就是说，过去半年发出去的 5.1、5.2、5.3、5.4，全部只是增量更新。换言之，过去的四次小版本更新，OpenAI 都是收着力气发布的——因为他们不清楚竞争对手会放出什么东西。

“收着劲儿更新”有一个更容易理解的说法：挤牙膏。

但更值得记住的一幕发生在 GPT-5.5 上线几个小时之后。Codex 用户在 GitHub 提了 Issue #19241，投诉 Fast mode 一开始真的很快，等更多用户被放进来之后肉眼可见变慢，而计费还按 Fast 档结算。措辞很熟悉：“请 OpenAI 调查 GPT-5.5 Fast mode 是否在高负载下被降级。”

这几乎就是 2025 年 8 月 7 日 GPT-5 首发当天那一幕的精确重演——那一次，Reddit r/ChatGPT 把 “GPT-5 is horrible” 顶到 4600+ upvotes，Sam Altman 第二天在 AMA 上亲口承认 “the autoswitcher broke... GPT-5 seemed way dumber”——承认了 router 在幕后替用户做了降档这件事。

同一个剧本，八个月后再度上演。

更戏谑的是，在 GPT-5.5 正式发布的前一天，OpenAI 的 Codex 把内部 staging 环境误推到了生产环境，被几个 Pro 用户截图截了下来，几分钟之内修掉，但泄漏的内容已经四处流传。当时出现在选择器里的，除了 GPT-5.5 本身，还有一个叫 Glacier 的系列（tooltip 写着 “Intelligence that moves continents”）、一个叫 Heisenberg 的生命科学模型、一个叫 Arcanine 的未知用途模型，以及代号 oai-2.1 等多个版本。

也就是说，就在 OpenAI 把 GPT-5.5 作为“下一代”放出来的同一时间，内部至少跑着 5 到 6 条平行的产品线，每一条都还没轮到公众。

OpenAI 自己倒是认了。在 2026 年官方的年度路线图里，他们用了一个学术圈讨论已久的词——capability overhang——承认当前大模型的真实能力和用户实际能用出的效果之间，存在一个巨大的 gap。

熟悉吗？和 Anthropic 对待 Mythos 的话术几乎是同一句话。就算 4 月 22 日那次 Codex 泄露真的是误操作，OpenAI 主动把 capability overhang 这个词放进路线图，传递的信号已经写得很清楚——我们手里还多得很，你们看着办。

你手里有远多于卖给用户的东西，你才有的挤。GPT-5.5 的 24 小时，把这个前提再一次变成了现场直播。

Deepseek 的耐心等待

DeepSeek 这一边，“挤”的方式彻底变了——它不是在藏能力，而是在等一个更合适的交付时机。

1.6T MoE、1M 上下文、Pro/Flash 双规格，定价 3.48 per 1M tokens——是 GPT-5.5 的几十分之一，是 Opus 4.7 的量级差。海外独立评测者给出的结论是两句话：性能贴近但略低于 GPT-5.4 / Gemini 3.1-Pro，价格“把前沿实验室的经济学打穿了”。

但放在 DeepSeek 自己的坐标系里，V4 Preview 已经比 V3 那种“便宜到诡异”的价格贵了不止一点。所有人都知道——这不是满血版。

DeepSeek V4 的完整故事，不以发布为终点，更不以发布为起点。

要从 2025 年 R2 那次没发出来的发布讲起。R2 原定于 2025 年 5 月发布，但最终被延后到秋冬。整个中国Deepseek 的基础设施迁向华为的 CANN 生态。对于任何一个实验室实验室，这都不可能是一个季度能完成的工程——编译器、算子、通信库、推理框架、MoE 路由，全部要重写。

而 V4 这一次，是 DeepSeek 第一次把昇腾正式写进训练硬件清单。V4 是混合训练的第一个版本——昇腾首次入场。

但专门为大规模训练优化的下一代芯片昇腾 950DT，按华为路线图要 2026 年 Q4 才量产。也就是说，V4 训练能跑起来，是用上一代的 950PR 拼出来的；要让 V4 Pro Max 这种 1.6T MoE 的满血版本既能训得彻底又能大规模推得起来，还要等下一代到位。

真正的工程难点不是“V4 能不能训出来”——已经训出来了——而是“V4怎样在昇腾上跑得满、跑得稳、跑得便宜”。

昇腾 950PR 在 2026 年 Q1 量产，FP4 算力 1.56 PFLOPS、片上内存 112GB，纸面规格对标并超过英伟达 H20。但从一颗芯片跑得起，到一整片超节点能稳定服务数百万 token/秒的推理请求，是两回事。V4 Pro Max 的满血版，锁的就是这个“超节点”——昇腾 950 系列的大规模集群版本，2026 年下半年陆续到位。

这构成了一个和前两家完全不同的策略。Anthropic 和 OpenAI 挤牙膏的逻辑，是我手里有更强的，先不给你；DeepSeek 挤牙膏的逻辑，是我满血的那一版，要等一个让价格再下一个台阶的时刻。

这个差别很重要。

DeepSeek 真正的杀手锏从来不是“性能最前沿”，而是“在性能够用的前提下，把 token 价格砍到别人不敢砍的位置”。V4 Preview 在英伟达卡和昇腾 950PR 上做了适配，但要做到量产规模的满血推理，必须等超节点到位。一旦等到那一刻，两件事会同时发生：一是 V4 Pro Max 的能力可以释放到顶；二是推理成本、API 定价会再落一阶——对一家靠价格打穿市场的公司，后者比前者更致命。

人们真正期待的、在 2025 年初发生过的那个“DeepSeek 时刻”，没有在这次发布里再次上演。而 V4 Preview 的发布其实是一段预告片，真正的重头戏，是下半年的“DeepSeek + 华为昇腾”时刻。

从这个角度看，梁文锋团队现在做的不是被迫的“藏”，而是一次商业上克制的“选择”——选择把最强版本的首发，交到一个它最有话语权的场景里：国产超节点大规模部署后的第一天。在那之前，先用 V4 Preview 把性价比的叙事再巩固一轮。

DeepSeek 背负的从来不是让国产大模型在某个榜单上拔到第一的“长板叙事”，而是让芯片、训练、推理、定价四条线同时跑通的“系统性叙事”——后者比前者重要得多。

就在前几天，黄仁勋在 Dwarkesh Patel 的播客上说，如果 DeepSeek 在华为芯片上首发，“那对我们美国来说是个可怕的结果”（“a horrible outcome for our nation”）。

现在英伟达还把控着顶尖算力。但按照黄仁勋自己抛出的那块“AI 五层蛋糕”——能源、芯片、基础设施、模型、应用——国产大模型产业在每一层都已经有了能跑通的国产方案，差距正在以肉眼可见的速度缩小。补上芯片这块最后的拼图，DeepSeek 的开源大模型故事，才是一个比美国大模型更大的故事：这是一场不用消耗过多成本、让全球实现智能平权的重要一步。

让全世界都可以绕过某些被霸权掌控的先进算力，走入高效的智能社会。

尾声

Anthropic 的“藏”——是主动的。他们有 Mythos，没发，理由是 safety。

OpenAI 的“藏”——是结构的。他们有 Pro 档，不常给你，理由是 infrastructure 和价格分层。

DeepSeek 的“藏”——是必要的。它关乎一整套社会智能跃迁的叙事范本。

但从另一个侧面来看，这又像极了大刘描绘的黑暗森林：在这片漆黑的智能森林里，每一个顶尖猎人都不会率先开出自己的那一枪。

暴露意味着毫无保留，意味着没有底牌，会成为另一个猎人的活靶子。

没人知道谁会率先打出最致命的一枪。但可以确定的是，今天你用的每一个模型，都不是它真正的样子。