DeepSeek掀桌后，大模型厂商应该关注什么？-钛媒体官方网站

文 | 利昂先生

4月24日，DeepSeek V4 虽迟但到。

1.6T 参数，MIT 协议全量开源，百万级上下文直接拉满。

鼓掌的除了整个科技圈，还有那些在前一天卖空Minimax和智谱股票的股民们。

但内行人更关注的是，DeepSeek V4创新性地用了两套全新的底层设计：Engram 条件记忆模块和mHC（流形约束超连接）。

核心目的只有一个：在保持模型效果的前提下，把训练和推理的成本打下来。

这说明了一件事：模型层面的创新，正在和基础设施层面的创新深度绑定。

一个月前，OpenAI 核心基础设施团队的大牛翁家翌说了一段话，在技术圈疯传：

“现在的大模型竞争，拼的不是 Idea 多精妙，而是 AI Infra 的正确性与单位时间内的迭代次数。Idea 是廉价的，能被快速验证的 Idea 才值钱。”

这句话，百度智能云的百舸团队显然听进去了。

最近，他们开源了一个AI训练框架，直接把这场"速度战"的烈度往上抬了一个量级。

它叫 “LoongForge”。

//一个科普：训练框架是个啥？

大模型训练，不是写几行代码就能跑的。

一个几百亿参数的模型，一张GPU卡装不下，得“切”成很多块，放到几十张甚至几千张卡上同时训练。

这就带来一堆问题:

怎么切？模型有几百层，每层都要切，切错了就跑不起来。

怎么通信？几千张卡在训练，每张卡算完自己的部分，要和其他卡交换数据。交换慢了，整个训练就慢了。

怎么管理显存？模型参数、梯度、优化器状态，都要占显存。显存不够，训练就崩了。

怎么保证稳定？几千张卡跑几天几夜，中间某张卡出问题了，整个训练要重来吗?

这些问题，如果让每个工程师自己解决，那得累死。于是就有了“训练框架”。

它像一个智能管家——自动切分模型、优化通信、管理显存、保证容错。

有了这个“老师傅”，工程师才能专注于模型创新，而不是被工程细节拖死。

多模态时代，老框架有心无力

把时间拉回两年前，那时大模型基本都是“纯文字”，训练框架早就很成熟了，而且绑在NVIDIA一棵树上。

但到了现在，情况变了：文生图、图生文、视频理解、机器人控制……所有最性感的 AI 方向，都是多模态。

训练多模态模型，和训练纯文字大模型，完全不是一个概念。

多模态模型——视觉编码器（ViT）+ 语言模型（LLM）+ 投影层，三个模块参数量差了上百倍。传统框架只能给它们强制套用同一套并行策略——小的模块闲死，大的模块累死。

坑二：数据不均匀，GPU 互相等

多模态数据差异巨大：单张图片 ~256 token，20分钟视频 ~100000+ token。

Attention 的计算复杂度是序列长度的平方级，分到视频的那块 GPU，计算量是分到图片的上万倍。

其他GPU，全在（摸鱼）等它。

国产芯片越来越多地进入大模型训练场景，但训练框架是深度绑定英伟达 GPU 。换芯片？重写一遍，维护两套代码，成本极高。好不容易迁移完了，还发现性能对不上。

老框架们面对多模态，就像中年人面对996，力不从心。

//LoongForge如何填坑（略长，但通俗易懂）

百度智能云百舸团队给出的答案，就是“LoongForge”。

从技术上说，LoongForge 是一个全模态训练框架——覆盖纯文字（LLM）、视觉语言（VLM）、机器人控制（VLA），甚至文生图（Diffusion）场景。

但说人话就是：他们把上面那三个坑，一个一个填了。

一、让每个模块都拥有最优策略

传统框架“一刀切”的并行策略，对视觉编码器和语言模型都不友好。

LoongForge的做法是：把这两者解耦，各自独立配置最优的并行方案。

这相当于什么？以前是三个人挤一张桌子吃饭，小个子够不着，大个子伸不开腿。现在是各坐各的桌椅，各用各的餐具，谁也不耽误谁。

实测效果：

二、智能化分配任务，让摸鱼的 GPU动起来

传统框架的“大锅饭”思路，不只耽误效率，还浪费成本。

LoongForge 引入了一套自动负载均衡机制：计算量大的样本（比如长视频），少分配一些；计算量小的样本（比如单张图片），多分配一些。目标是让每块 GPU 拿到的计算量尽量相当。

这就像一个聪明的项目经理，给能力强的人多分配任务，让团队整体效率最高。

这对提升大规模集群的扩展效率极为重要。

实测效果：

解释一下这个 90%+ 是什么概念——千卡规模下，很多框架的扩展效率掉到 60-70% 就已经算不错了。90%+ 意味着几乎线性扩展，每一分算力都花在了刀刃上。

LoongForge的解法是做了一个叫 XPU_Plugin 的硬件接入层——底层硬件的差异，被这层插件吃掉了。

同一份训练代码，只改一个环境变量，就能在 GPU 和昆仑芯之间无缝切换。它意味着，那些想"两条腿走路"的公司，不需要维护两套代码库了。

当然，这事的意义也不只是"省事"。

它甚至意味着——NVIDIA的生态壁垒，被拆掉了一层。

当然，LoongForge 做的还不止这些——

比如：

因为MoE 有大量“专家”分散在不同GPU 上，所以训练要频繁跨 GPU 通信，长序列时通信成百上千次，速度被拖死。

业界的做法是让计算和通信“重叠”，GPU算当前数据时，同时传输下一批数据，通信时间就“藏”在计算里。

但因为要提前存下一批数据，显存爆炸。长序列时，这块显存可能比模型本身还大。

所以，MoE 模型训练要么显存爆炸，要么通信慢。

LoongForge搞了一套组合拳——

实测效果：

再比如：

DeepSeek v3.2用了一种叫稀疏注意力的新技术。只计算重要的关系，忽略不重要的关系，大幅降低计算量。

但这个技术实现起来很复杂，优化起来更难。

LoongForge对DeepSeek V3.2的稀疏注意力架构做了深度优化：算子融合（小操作合并成大操作）、索引优化（加速数据访问）、KV 布局优化（减少显存占用）、序列拼接（多小任务打包提高效率）。

实测效果：

这不是调个参数，是重写计算内核。

又比如：

因为传统框架的模型定义和分布式策略深度耦合，每来一个新模型，就得深入底层代码改一遍，接入训练框架，往往需要数周时间。

LoongForge 通过一套标准化的三层抽象，加上 YAML 配置文件驱动，把新模型接入的工作量，从数周压缩到了数天。

这个速度，放在行业里，很能说明问题。

以具身智能为例。

具身智能需要的 VLA（Vision-Language-Action）模型——把视觉、语言、动作三个模态统一在一个模型里训练，对训练框架的显存管理和通信效率要求极其苛刻，比普通多模态模型更折磨人。

很多做具身智能的团队，都被卡在这里——模型设计好了，但训练跑不动，或者跑太慢。

而 LoongForge 在这个场景下的表现，相当亮眼——

PI0.5（代表性 VLA 模型），相比社区框架，训练速度提升了 49%。

这个数字意味着：同样训一个机器人控制模型，别人花 20 天，你花 10 天。

“首发”和“跟风”，区别立现。

//模型拼到底，拼的是什么?

一个更深层次的问题，现在大模型竞争这么激烈，大家都在拼什么?

以前大家只关心模型效果好不好、参数多不多、榜单排名高不高。现在越来越多的人开始意识到：算力才是真正拉开差距的地方。

为什么这么说？

先看历史：

2007年，CUDA出现了。一个工具，改变了一个时代。

2017年，PyTorch出现了。一个框架，加速了一个行业。

再看现在：

多模态时代来了。同样花 1 个亿买芯片：用老框架的团队，每天能跑 2 个实验；用 LoongForge 的团队，每天能跑 4-6 个实验。

一个月下来，就是 60 个实验 vs 180 个实验的差距。这个差距，积累三个月，就是代差。

翁家翌的话再品一遍：

LoongForge做的，就是让“快速验证 Idea”这件事，变得更容易、更便宜。

现在，百度智能云把 LoongForge 以 Apache 2.0 协议完全开源了。这意味着，商用没问题，改也没问题，拿来养自己的模型也没问题。

他们为什么敢开源？

一种可能是：这套东西他们已经在内部跑了很久，足够自信，拿出来示人，顺便吸引开发者围绕昆仑芯构建生态。

这个逻辑，和当年英伟达用 CUDA 锁定开发者生态，本质上是一样的。先有好的训练框架，再有繁荣的硬件生态，最后形成护城河。

现在，这条路上多了一个中国玩家。

LoongForge 能不能跑出来，还得看社区反馈和后续迭代。

但至少，方向是对的。