本地LLM加速新突破：atomic.chat MTP技术让Qwen模型速度提升超130%

2026.05.21 12:32

atomic.chat推出多令牌预测（MTP）技术，使本地离线运行的LLM速度显著提升。Qwen27B稠密模型从51 tokens/s增至117 tokens/s（+137%），35B-A3B MoE模型从218增至267 tokens/s（+25%）。该技术通过批量生成并验证令牌减少GPU重复工作，80%接受率且零精度损失，仅需额外1GB VRAM，代码已开源。

atomic.chat最近为本地大语言模型（LLM）用户带来了一个好消息——他们研发的多令牌预测（MTP）技术，能让本地LLM在100%离线运行时大幅提升速度。在双RTX 5090显卡的测试环境下，Qwen3.6 27B稠密模型的生成速度从51 tokens/s跃升至117 tokens/s，提升幅度达137%；而Qwen3.6 35B-A3B混合专家（MoE）模型则从218 tokens/s提升到267 tokens/s，增长25%。

MTP技术的核心思路是改变传统逐令牌生成并检查的模式，转而提前生成多个未来令牌的草稿，再一次性验证这些草稿，以此减少GPU的重复运算。本地LLM的速度瓶颈往往不在于纯粹的计算能力，而在于内存带宽：GPU需要反复从显存（VRAM）中读取模型权重，这会消耗大量时间。MTP技术则通过一次前向传递就能检查多个草稿令牌，有效减少了重复读取权重矩阵的次数。

测试中最亮眼的表现是，这项技术实现了约80%的草稿令牌接受率，且不会造成任何精度损失，仅需额外占用1GB VRAM。由于稠密模型的主要瓶颈正是内存带宽，所以它的提速效果会更明显。目前，atomic.chat已将相关代码完全开源。

注：本内容为付费合作内容。

作品声明：内容由AI生成