DeepSeek+华为,黄仁勋:我们的噩梦来了!

AGI
国产 AI 大模型,今天确实迈出了一大步。

文|蓝字计划,作者|Hayward

英伟达 CEO 黄仁勋的噩梦成真了。

4 月 17 日,黄仁勋在一个采访中罕见发飙:

主持人问他,如果美国“卖芯片给中国,中国算力增强了,不就是帮对手变强吗?” 

但老黄却愤怒地说:“芯片又不是浓缩铀!卖给中国怎么了?“

“如果 DeepSeek 这种中国顶尖大模型,以后首发跑在华为芯片上,对美国来说就是可怕的结果!”

七天之后,老黄一语成箴。

4 月 24 日,在 DeepSeek V3/R1 爆火了一年多之后,在众人的翘首期盼之下,DeepSeek终于掏出了一个大版本号更新的新模型。

但比起DeepSeek V4 的性能提升,更引人注目的是另一件事:

相比英伟达,DeepSeek 这次选择和华为走到了一起。

第二个华为?

按照官方的说法,这次 DeepSeek V4 和华为方堪称“深度融合”,而这种融合,就体现在芯模协同的芯片 + 模型层面。

DeepSeek 在 V4 开发过程中,专门花了几个月时间与华为(以及寒武纪)密切合作,重写了模型底层代码的部分模块,从原本更依赖 CUDA 的技术路径,开始向华为 CANN 生态做深度适配。

这打破了行业惯例——以往大模型通常优先给英伟达/AMD 提供早期访问权限进行优化,而 DeepSeek 这次把优先期给了国产芯片,确保 V4 在华为昇腾950 系列芯片上高效运行。

几乎与此同时,华为计算官方明确表示,昇腾超节点系列产品已全面支持DeepSeek-V4。

通过双方芯模技术紧密协同,实现了在昇腾硬件上的低时延推理。例如在 8K 输入场景下,昇腾 950 超节点可实现 V4-Pro TPOT 约 20ms、V4-Flash TPOT 约 10ms 的单 token 解码时延,非常出色。

正是基于这个消息,这次 DeepSeek V4 的发布,除了满足吃瓜群众等来“下一个 DeepSeek R1”的朴素愿望外,还被视为中国 AI 产业链“从依赖到自主”的重要一步。

之所以会被赋予如此重大的意义,看看过去一年里关于 DeepSeek 的讨论都离不开英伟达就知道了。

V3 也好,R1 也好,无论成本再低,性能再好,但都绕不开一个现实:

买得到什么卡、能不能稳定供货、美国什么时候再加一道禁令、CUDA 生态能不能继续用,始终都在有形无形地掐着国产大模型的脖子。

而在今天,至少在推理端,中国大模型已经开始突破重围。

一个中国最顶尖的大模型,至少在推理服务上,已经不必完全依赖英伟达的卡。

过去美国一边卡中国的高端 AI 芯片,一边又想让英伟达继续卖 H20 这种“特供残血卡”的历史,也一去不复返了。

性能冲击国产顶尖

当然,DeepSeek V4 能让人兴奋,除了华为,还在于它确实非常能打。

从目前公开信息看,DeepSeek V4 的成绩,确实把 DeepSeek 又送回了国内大模型的最前排。

先看基础能力。

DeepSeek 官方称,V4-Pro在世界知识、数学、STEM、代码等方向上,已经超过当前开源模型,并接近全球顶级闭源模型水平;V4-Flash 的推理能力也接近 V4-Pro,在简单 Agent 任务上表现接近旗舰版。

 

另一方面,针对当前行业大热的 Agent 能力,DeepSeek V4 也迎来了“史诗级”加强。

官方明确强调 V4 面向 Agent 能力做了专门优化,已经接入 Claude Code、OpenClaw、OpenCode 等主流 AI Agent 工具,并且正在驱动 DeepSeek 自己内部的 agentic coding。

然后还有上下文能力,DeepSeek V4 支持 100 万 token 上下文,并且是所有模型的默认能力,实现近 7.8 倍提升。

有了这样强大的上下文能力,新模型就能轻松支持超长上下文场景,如长文档分析、复杂Agent 任务,还是为未来的 AI 工具实用性落地、Agent工具接入做准备。

只不过,在价格方方面,这次可能就不再是 DeepSeek 的优势了。

官方价格表显示,V4-Flash 每百万输入 token 是 0.14 美元,每百万输出 token 是 0.28 美元;V4-Pro每百万输入 token 是 1.74 美元,每百万输出 token 是 3.48 美元。

缓存命中时,输入价格还能进一步降到 0.028 美元和 0.145 美元。

相比 DeepSeek 过去那种“便宜到让同行怀疑人生”的打法,V4-Pro 明显贵了不少;但也从另一方面说明,DeepSeek不是单纯靠低价冲市场了,他们也有信心,抬高价格后依然有大把人买单。

无论是从能力还是价格定位来看,DeepSeek V4 显然有着改写市场秩序的野心。

只不过,距离 DeepSeek V4 的完全胜利,可惜还差一步。

模型训练,还是难题

DeepSeek V4 跑在华为昇腾上,当然是一个标志性事件。

可它目前最确定的部分,还是推理和适配;对于真正能鼓舞士气的“用昇腾芯片训练出DeepSeek V4” ,却还没有一个明确的答案。

根据路透社的报道,DeepSeek V4 适配了华为芯片技术,华为也称昇腾超节点产品线支持 V4 系列模型;但 DeepSeek 并没有披露训练这款最新模型使用了哪些处理器。

此前 Reuters 曾援引美国官员称,DeepSeek 最新模型使用 Nvidia Blackwell 训练。到目前为止,V4 的训练硬件仍没有明确答案。

另一方面,这次频繁路面的华为昇腾 950系列芯片被定位为推理专用芯片,FP8/FP4 等低精度算力强劲,单卡性能在某些场景下据称可达英伟达 H20 的 2.87 倍左右,真正能用来训练的,实际上是今年下半年才实现量产的950DT。

所以,DeepSeek V4 只能算是部分摆脱了英伟达 CUDA 生态的依赖,距离“全链路国产”,还有一些距离。

不过好在,这次昇腾官方披露了一个值得注意的细节:CANN 已基于 A3 64 卡超节点,完成 DeepSeek V4-Flash 模型续训练(CPT)的 0-day 适配支持,实测模型吞吐量最高达到 1100 tokens/p/s。

这个细节的价值在于,尽管 V4-Flash 只是轻量版本,但 DeepSeek V4 已经可以在国产算力上跑通续训练流程。

这意味着,国产算力在大模型链路里的角色,正在从推理部署继续往训练侧推进:先跑通推理,再完成续训练适配,最后攻克最难的完整预训练。

说不定到了今年下半年,昇腾950DT 可以实现大规模出货,我们就真的可以看到“训练—推理”全链路跑在国产算力上的国产大模型了。

本文系作者 蓝字计划 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App