英伟达双塔模型提速2.42倍，大模型「逐字蹦」的旧时代结束了

英伟达于2026年7月1日开源Nemotron-Labs-TwoTower离散扩散语言模型，以60B双塔架构将文本生成吞吐量提升2.42倍，同时保留98.7%的原版生成质量。该模型复用现有Nemotron骨干网预训练权重，无需从头训练，每座30B塔仅激活3B参数、搭载128个可路由专家模块。

你有没有想过，为什么ChatGPT回答一个问题，总是半个字半个字地往外蹦？

不是它不想快。是它的底层架构——自回归——天生就规定了：每次只能预测下一个Token，然后基于这个新Token再预测下一个，像一根串珠子的线，一针一针往前穿。模型越大，字越多，等待的时间就越长。

2026年7月1日，英伟达在Huggingface上开源了一个名为Nemotron-Labs-TwoTower的模型，试图彻底终结这种「逐字蹦」的旧模式。它的核心卖点很简单：在保留98.7%原版生成质量的前提下，把文本生成速度提到2.42倍。

这不是一个渐进式的增量优化。这是一次架构层面的范式切换。

60B双塔，并行写字的AI

英伟达这次开源的模型，总参数60B。但真正让它与众不同的，不是参数规模，而是「双塔」这个设计。

传统的大语言模型，无论是GPT系列还是Llama系列，都只有一条推理路径：输入一段文本，模型逐Token生成回复。每一步依赖前一步的结果，无法并行。Nemotron-Labs-TwoTower把这条路拆成了两条，让两座独立的神经网络同时工作。

第一座塔叫上下文塔，30B参数，负责维持文本的语义上下文。它保持冻结状态，不做任何训练，只负责记住当前已经生成的内容。第二座塔叫去噪塔，也是30B参数，专门负责生成。它接收被噪声污染的Token块，通过扩散机制逐步去噪，一次性复原出完整的文本块。

两座塔之间通过逐层交叉注意力连接：去噪塔在每一层都从上下文塔那里借KV缓存和Mamba-2状态信息，确保并行生成的内容不跑偏。每座塔内部，激活参数为3B，搭载128个可路由专家模块。这意味着虽然总参数60B，但每次推理实际只激活约3B参数，保持了高效的计算密度。

这个架构的底层骨干是英伟达已有的Nemotron-3-Nano-30B-A3B模型。去噪塔在约2.1T Tokens上进行了额外训练，而骨干网已在25T Tokens上预训练，复用全部预训练权重，无需从头训练——这极大降低了开发成本。

在默认配置下（置信度阈值γ=0.8，块大小S=16，BF16精度，双卡H100），模型在综合基准测试中保留了原版自回归基线98.7%的质量，同时将生成吞吐量提升了2.42倍。具体到各项任务：MMLU从78.56降至78.24，ARC-Challenge从91.72升至92.66，GSM8K从92.49降至90.14，HumanEval从79.27降至75.58。代码和数学有小幅下滑，但常识推理表现稳定甚至略有提升。

为什么是双塔？为什么是现在？

自回归的原罪

理解TwoTower的价值，首先要理解它要解决的问题。

自回归模型在过去五年里统治了AI领域。从GPT-3到Llama 3，从Claude到Gemini，几乎所有的商用大语言模型都采用这种架构。它的核心机制是链式规则：每一个新Token的生成，都依赖于之前所有Token的结果。这个机制保证了语义的连贯性，也带来了一个根本性的限制：无法并行。生成1000个Token，就必须做1000次前向推理。即使借助KV Cache等优化手段减少了单步计算量，步数本身无法压缩。

在边缘部署场景中，这意味着一台设备可能几秒钟才能生成一句话。在实时交互场景中，这直接影响了用户体验。在推理成本层面，这意味着每多生成一个Token，就多一次GPU计算，多一笔云账单。

扩散LLM的理想与现实

扩散模型在图像生成领域已经证明了并行生成的能力。Stable Diffusion、DALL-E、Midjourney——这些图像生成模型不需要逐像素生成，而是从纯噪声开始，经过几十步去噪，一次性呈现完整图像。

那么，能不能把同样的思路迁移到文本生成？

2025年以来，学术界在扩散语言模型上取得了显著进展。LLaDA、Dream等模型展示了扩散范式在文本生成中的可行性。这些模型先将一句话的部分Token随机掩盖，然后训练模型学习如何一步步还原被破坏的词。由于扩散过程是双向的，所有位置同时更新，理论上可以并行生成。

但现实是残酷的。开源扩散LLM在推理速度上明显慢于同规模的自回归模型。原因有二：第一，扩散模型需要多次迭代才能得到最终结果，每一步都要对整句做一次前向计算，计算开销巨大。第二，扩散模型是双向的，无法直接套用自回归模型的KV Cache策略——因为每一步的所有位置都在变化，缓存无法复用。

2025年6月，英伟达联合港大提出的Fast-dLLM通过分块KV缓存和置信度感知并行解码，将扩散LLM推理加速了27.6倍。但Fast-dLLM本质上是一个推理优化方案，不改变模型本身的结构。

TwoTower的解法：把一个模型拆成两个专家

Nemotron-Labs-TwoTower的聪明之处在于，它没有试图用一个模型同时做理解上下文和生成文本这两件事，而是把任务拆给了两个专家。

上下文塔保持冻结，跑的是经典的自回归模式——慢，但语义精准。去噪塔则专注做扩散生成——快，但需要上下文塔提供语义指导。两塔通过交叉注意力机制协同，去噪塔在每一层都能偷看上下文塔的注意力状态，确保并行生成的内容在语义上不偏离轨道。

这种设计还有一个隐藏优势：复用现有预训练权重。骨干网Nemotron-3-Nano-30B-A3B的权重可以直接用，只需要额外训练去噪塔。这极大降低了训练成本。对比LLaDA和Dream这类从头训练的扩散LLM，TwoTower的训练成本低了一个数量级。对比Fast-dLLM这类推理优化方案，TwoTower在架构层面解决了扩散LLM的速度瓶颈，而不仅仅是推理时的工程优化。

英伟达的生态牌

在7月1日的官方推文中，英伟达AI账号同时发布了Huggingface模型权重和论文链接。这不是一个研究项目，而是一个产品级别的开源发布。

模型采用NVIDIA Nemotron Open Model License协议，允许商用，开发者可自由下载部署。运行环境要求双卡H100或A100 80GB——这意味着如果你想用最快的双塔模式，至少需要两张英伟达的旗舰显卡。

这不是巧合。英伟达正在从卖显卡转向卖算力加软件生态。从CUDA到NeMo，从TensorRT到Nemotron系列模型，英伟达的护城河已经不只是硬件，而是整个AI基础设施栈。Nemotron-Labs-TwoTower的开源，既推动了扩散LLM的技术进步，也悄无声息地强化了用英伟达卡跑英伟达模型的生态闭环。

谁受益，谁危险

推理服务提供商是最大的受益者。2.42倍的吞吐提升意味着在同等GPU预算下，可以服务2.42倍的请求量，或者将延迟压缩到原来的40%。对于已经部署了Nemotron系列模型的团队，TwoTower是一次零成本的升级——权重兼容，只需替换推理代码。

边缘设备厂商也将受益。虽然目前双塔推理需要双卡H100，但随着模型蒸馏和量化技术的推进，未来有望在单卡甚至边缘设备上运行。当AI生成速度不再是瓶颈，智能眼镜、AI手机、车载AI的体验会迎来质的飞跃。

而自回归模型的性能护城河正在被侵蚀。过去，自回归模型之所以是AI的默认选择，不是因为它的效率高，而是因为它足够好且足够成熟。但TwoTower打破了两个假设：第一，扩散LLM可以比自回归更快；第二，质量损失可以控制在2%以内。如果这个趋势持续，未来两年的旗舰模型可能会从纯自回归转向混合架构——对话和推理用自回归，长文本生成用扩散。这将对依赖自回归路线进行架构优化的芯片设计公司产生深远影响。

大模型世界的逐字蹦时代，正在被一次架构拆分悄然终结。英伟达开的不是一扇门，是一条路——一条让AI学会一次写完的路。这条路通往的，是更快的推理、更低的成本，和一种全新的生成范式。