英伟达双塔模型提速2.42倍,大模型「逐字蹦」的旧时代结束了

2026.07.03 15:49
英伟达于2026年7月1日开源Nemotron-Labs-TwoTower离散扩散语言模型,以60B双塔架构将文本生成吞吐量提升2.42倍,同时保留98.7%的原版生成质量。该模型复用现有Nemotron骨干网预训练权重,无需从头训练,每座30B塔仅激活3B参数、搭载128个可路由专家模块。

你有没有想过,为什么ChatGPT回答一个问题,总是半个字半个字地往外蹦?

不是它不想快。是它的底层架构——自回归——天生就规定了:每次只能预测下一个Token,然后基于这个新Token再预测下一个,像一根串珠子的线,一针一针往前穿。模型越大,字越多,等待的时间就越长。

2026年7月1日,英伟达在Huggingface上开源了一个名为Nemotron-Labs-TwoTower的模型,试图彻底终结这种「逐字蹦」的旧模式。它的核心卖点很简单:在保留98.7%原版生成质量的前提下,把文本生成速度提到2.42倍。

这不是一个渐进式的增量优化。这是一次架构层面的范式切换。

60B双塔,并行写字的AI

英伟达这次开源的模型,总参数60B。但真正让它与众不同的,不是参数规模,而是「双塔」这个设计。

传统的大语言模型,无论是GPT系列还是Llama系列,都只有一条推理路径:输入一段文本,模型逐Token生成回复。每一步依赖前一步的结果,无法并行。Nemotron-Labs-TwoTower把这条路拆成了两条,让两座独立的神经网络同时工作。

第一座塔叫上下文塔,30B参数,负责维持文本的语义上下文。它保持冻结状态,不做任何训练,只负责记住当前已经生成的内容。第二座塔叫去噪塔,也是30B参数,专门负责生成。它接收被噪声污染的Token块,通过扩散机制逐步去噪,一次性复原出完整的文本块。

两座塔之间通过逐层交叉注意力连接:去噪塔在每一层都从上下文塔那里借KV缓存和Mamba-2状态信息,确保并行生成的内容不跑偏。每座塔内部,激活参数为3B,搭载128个可路由专家模块。这意味着虽然总参数60B,但每次推理实际只激活约3B参数,保持了高效的计算密度。

这个架构的底层骨干是英伟达已有的Nemotron-3-Nano-30B-A3B模型。去噪塔在约2.1T Tokens上进行了额外训练,而骨干网已在25T Tokens上预训练,复用全部预训练权重,无需从头训练——这极大降低了开发成本。

在默认配置下(置信度阈值γ=0.8,块大小S=16,BF16精度,双卡H100),模型在综合基准测试中保留了原版自回归基线98.7%的质量,同时将生成吞吐量提升了2.42倍。具体到各项任务:MMLU从78.56降至78.24,ARC-Challenge从91.72升至92.66,GSM8K从92.49降至90.14,HumanEval从79.27降至75.58。代码和数学有小幅下滑,但常识推理表现稳定甚至略有提升。

为什么是双塔?为什么是现在?

自回归的原罪

理解TwoTower的价值,首先要理解它要解决的问题。

自回归模型在过去五年里统治了AI领域。从GPT-3到Llama 3,从Claude到Gemini,几乎所有的商用大语言模型都采用这种架构。它的核心机制是链式规则:每一个新Token的生成,都依赖于之前所有Token的结果。这个机制保证了语义的连贯性,也带来了一个根本性的限制:无法并行。生成1000个Token,就必须做1000次前向推理。即使借助KV Cache等优化手段减少了单步计算量,步数本身无法压缩。

在边缘部署场景中,这意味着一台设备可能几秒钟才能生成一句话。在实时交互场景中,这直接影响了用户体验。在推理成本层面,这意味着每多生成一个Token,就多一次GPU计算,多一笔云账单。

扩散LLM的理想与现实

扩散模型在图像生成领域已经证明了并行生成的能力。Stable Diffusion、DALL-E、Midjourney——这些图像生成模型不需要逐像素生成,而是从纯噪声开始,经过几十步去噪,一次性呈现完整图像。

那么,能不能把同样的思路迁移到文本生成?

2025年以来,学术界在扩散语言模型上取得了显著进展。LLaDA、Dream等模型展示了扩散范式在文本生成中的可行性。这些模型先将一句话的部分Token随机掩盖,然后训练模型学习如何一步步还原被破坏的词。由于扩散过程是双向的,所有位置同时更新,理论上可以并行生成。

但现实是残酷的。开源扩散LLM在推理速度上明显慢于同规模的自回归模型。原因有二:第一,扩散模型需要多次迭代才能得到最终结果,每一步都要对整句做一次前向计算,计算开销巨大。第二,扩散模型是双向的,无法直接套用自回归模型的KV Cache策略——因为每一步的所有位置都在变化,缓存无法复用。

2025年6月,英伟达联合港大提出的Fast-dLLM通过分块KV缓存和置信度感知并行解码,将扩散LLM推理加速了27.6倍。但Fast-dLLM本质上是一个推理优化方案,不改变模型本身的结构。

TwoTower的解法:把一个模型拆成两个专家

Nemotron-Labs-TwoTower的聪明之处在于,它没有试图用一个模型同时做理解上下文和生成文本这两件事,而是把任务拆给了两个专家。

上下文塔保持冻结,跑的是经典的自回归模式——慢,但语义精准。去噪塔则专注做扩散生成——快,但需要上下文塔提供语义指导。两塔通过交叉注意力机制协同,去噪塔在每一层都能偷看上下文塔的注意力状态,确保并行生成的内容在语义上不偏离轨道。

这种设计还有一个隐藏优势:复用现有预训练权重。骨干网Nemotron-3-Nano-30B-A3B的权重可以直接用,只需要额外训练去噪塔。这极大降低了训练成本。对比LLaDA和Dream这类从头训练的扩散LLM,TwoTower的训练成本低了一个数量级。对比Fast-dLLM这类推理优化方案,TwoTower在架构层面解决了扩散LLM的速度瓶颈,而不仅仅是推理时的工程优化。

英伟达的生态牌

在7月1日的官方推文中,英伟达AI账号同时发布了Huggingface模型权重和论文链接。这不是一个研究项目,而是一个产品级别的开源发布。

模型采用NVIDIA Nemotron Open Model License协议,允许商用,开发者可自由下载部署。运行环境要求双卡H100或A100 80GB——这意味着如果你想用最快的双塔模式,至少需要两张英伟达的旗舰显卡。

这不是巧合。英伟达正在从卖显卡转向卖算力加软件生态。从CUDA到NeMo,从TensorRT到Nemotron系列模型,英伟达的护城河已经不只是硬件,而是整个AI基础设施栈。Nemotron-Labs-TwoTower的开源,既推动了扩散LLM的技术进步,也悄无声息地强化了用英伟达卡跑英伟达模型的生态闭环。

谁受益,谁危险

推理服务提供商是最大的受益者。2.42倍的吞吐提升意味着在同等GPU预算下,可以服务2.42倍的请求量,或者将延迟压缩到原来的40%。对于已经部署了Nemotron系列模型的团队,TwoTower是一次零成本的升级——权重兼容,只需替换推理代码。

边缘设备厂商也将受益。虽然目前双塔推理需要双卡H100,但随着模型蒸馏和量化技术的推进,未来有望在单卡甚至边缘设备上运行。当AI生成速度不再是瓶颈,智能眼镜、AI手机、车载AI的体验会迎来质的飞跃。

而自回归模型的性能护城河正在被侵蚀。过去,自回归模型之所以是AI的默认选择,不是因为它的效率高,而是因为它足够好且足够成熟。但TwoTower打破了两个假设:第一,扩散LLM可以比自回归更快;第二,质量损失可以控制在2%以内。如果这个趋势持续,未来两年的旗舰模型可能会从纯自回归转向混合架构——对话和推理用自回归,长文本生成用扩散。这将对依赖自回归路线进行架构优化的芯片设计公司产生深远影响。

大模型世界的逐字蹦时代,正在被一次架构拆分悄然终结。英伟达开的不是一扇门,是一条路——一条让AI学会一次写完的路。这条路通往的,是更快的推理、更低的成本,和一种全新的生成范式。

作品声明:内容由AI生成