DeepSeek+华为，黄仁勋：我们的噩梦来了！-钛媒体官方网站

文｜蓝字计划，作者｜Hayward

英伟达 CEO 黄仁勋的噩梦成真了。

4 月 17 日，黄仁勋在一个采访中罕见发飙：

主持人问他，如果美国“卖芯片给中国，中国算力增强了，不就是帮对手变强吗？”

但老黄却愤怒地说：“芯片又不是浓缩铀！卖给中国怎么了？“

“如果 DeepSeek 这种中国顶尖大模型，以后首发跑在华为芯片上，对美国来说就是可怕的结果！”

七天之后，老黄一语成箴。

4 月 24 日，在 DeepSeek V3/R1 爆火了一年多之后，在众人的翘首期盼之下，DeepSeek终于掏出了一个大版本号更新的新模型。

但比起DeepSeek V4 的性能提升，更引人注目的是另一件事：

相比英伟达，DeepSeek 这次选择和华为走到了一起。

第二个华为？

按照官方的说法，这次 DeepSeek V4 和华为方堪称“深度融合”，而这种融合，就体现在芯模协同的芯片 + 模型层面。

DeepSeek 在 V4 开发过程中，专门花了几个月时间与华为（以及寒武纪）密切合作，重写了模型底层代码的部分模块，从原本更依赖 CUDA 的技术路径，开始向华为 CANN 生态做深度适配。

这打破了行业惯例——以往大模型通常优先给英伟达/AMD 提供早期访问权限进行优化，而 DeepSeek 这次把优先期给了国产芯片，确保 V4 在华为昇腾950 系列芯片上高效运行。

几乎与此同时，华为计算官方明确表示，昇腾超节点系列产品已全面支持DeepSeek-V4。

通过双方芯模技术紧密协同，实现了在昇腾硬件上的低时延推理。例如在 8K 输入场景下，昇腾 950 超节点可实现 V4-Pro TPOT 约 20ms、V4-Flash TPOT 约 10ms 的单 token 解码时延，非常出色。

正是基于这个消息，这次 DeepSeek V4 的发布，除了满足吃瓜群众等来“下一个 DeepSeek R1”的朴素愿望外，还被视为中国 AI 产业链“从依赖到自主”的重要一步。

之所以会被赋予如此重大的意义，看看过去一年里关于 DeepSeek 的讨论都离不开英伟达就知道了。

V3 也好，R1 也好，无论成本再低，性能再好，但都绕不开一个现实：

买得到什么卡、能不能稳定供货、美国什么时候再加一道禁令、CUDA 生态能不能继续用，始终都在有形无形地掐着国产大模型的脖子。

而在今天，至少在推理端，中国大模型已经开始突破重围。

一个中国最顶尖的大模型，至少在推理服务上，已经不必完全依赖英伟达的卡。

过去美国一边卡中国的高端 AI 芯片，一边又想让英伟达继续卖 H20 这种“特供残血卡”的历史，也一去不复返了。

性能冲击国产顶尖

当然，DeepSeek V4 能让人兴奋，除了华为，还在于它确实非常能打。

从目前公开信息看，DeepSeek V4 的成绩，确实把 DeepSeek 又送回了国内大模型的最前排。

先看基础能力。

DeepSeek 官方称，V4-Pro在世界知识、数学、STEM、代码等方向上，已经超过当前开源模型，并接近全球顶级闭源模型水平；V4-Flash 的推理能力也接近 V4-Pro，在简单 Agent 任务上表现接近旗舰版。

另一方面，针对当前行业大热的 Agent 能力，DeepSeek V4 也迎来了“史诗级”加强。

官方明确强调 V4 面向 Agent 能力做了专门优化，已经接入 Claude Code、OpenClaw、OpenCode 等主流 AI Agent 工具，并且正在驱动 DeepSeek 自己内部的 agentic coding。

然后还有上下文能力，DeepSeek V4 支持 100 万 token 上下文，并且是所有模型的默认能力，实现近 7.8 倍提升。

有了这样强大的上下文能力，新模型就能轻松支持超长上下文场景，如长文档分析、复杂Agent 任务，还是为未来的 AI 工具实用性落地、Agent工具接入做准备。

只不过，在价格方方面，这次可能就不再是 DeepSeek 的优势了。

官方价格表显示，V4-Flash 每百万输入 token 是 0.14 美元，每百万输出 token 是 0.28 美元；V4-Pro每百万输入 token 是 1.74 美元，每百万输出 token 是 3.48 美元。

缓存命中时，输入价格还能进一步降到 0.028 美元和 0.145 美元。

相比 DeepSeek 过去那种“便宜到让同行怀疑人生”的打法，V4-Pro 明显贵了不少；但也从另一方面说明，DeepSeek不是单纯靠低价冲市场了，他们也有信心，抬高价格后依然有大把人买单。

无论是从能力还是价格定位来看，DeepSeek V4 显然有着改写市场秩序的野心。

只不过，距离 DeepSeek V4 的完全胜利，可惜还差一步。

模型训练，还是难题

DeepSeek V4 跑在华为昇腾上，当然是一个标志性事件。

可它目前最确定的部分，还是推理和适配；对于真正能鼓舞士气的“用昇腾芯片训练出DeepSeek V4” ，却还没有一个明确的答案。

根据路透社的报道，DeepSeek V4 适配了华为芯片技术，华为也称昇腾超节点产品线支持 V4 系列模型；但 DeepSeek 并没有披露训练这款最新模型使用了哪些处理器。

此前 Reuters 曾援引美国官员称，DeepSeek 最新模型使用 Nvidia Blackwell 训练。到目前为止，V4 的训练硬件仍没有明确答案。

另一方面，这次频繁路面的华为昇腾 950系列芯片被定位为推理专用芯片，FP8/FP4 等低精度算力强劲，单卡性能在某些场景下据称可达英伟达 H20 的 2.87 倍左右，真正能用来训练的，实际上是今年下半年才实现量产的950DT。

所以，DeepSeek V4 只能算是部分摆脱了英伟达 CUDA 生态的依赖，距离“全链路国产”，还有一些距离。

不过好在，这次昇腾官方披露了一个值得注意的细节：CANN 已基于 A3 64 卡超节点，完成 DeepSeek V4-Flash 模型续训练（CPT）的 0-day 适配支持，实测模型吞吐量最高达到 1100 tokens/p/s。

这个细节的价值在于，尽管 V4-Flash 只是轻量版本，但 DeepSeek V4 已经可以在国产算力上跑通续训练流程。

这意味着，国产算力在大模型链路里的角色，正在从推理部署继续往训练侧推进：先跑通推理，再完成续训练适配，最后攻克最难的完整预训练。

说不定到了今年下半年，昇腾950DT 可以实现大规模出货，我们就真的可以看到“训练—推理”全链路跑在国产算力上的国产大模型了。