本地LLM加速新突破:atomic.chat MTP技术让Qwen模型速度提升超130%

2026.05.21 12:32
atomic.chat推出多令牌预测(MTP)技术,使本地离线运行的LLM速度显著提升。Qwen27B稠密模型从51 tokens/s增至117 tokens/s(+137%),35B-A3B MoE模型从218增至267 tokens/s(+25%)。该技术通过批量生成并验证令牌减少GPU重复工作,80%接受率且零精度损失,仅需额外1GB VRAM,代码已开源。

atomic.chat最近为本地大语言模型(LLM)用户带来了一个好消息——他们研发的多令牌预测(MTP)技术,能让本地LLM在100%离线运行时大幅提升速度。在双RTX 5090显卡的测试环境下,Qwen3.6 27B稠密模型的生成速度从51 tokens/s跃升至117 tokens/s,提升幅度达137%;而Qwen3.6 35B-A3B混合专家(MoE)模型则从218 tokens/s提升到267 tokens/s,增长25%。

MTP技术的核心思路是改变传统逐令牌生成并检查的模式,转而提前生成多个未来令牌的草稿,再一次性验证这些草稿,以此减少GPU的重复运算。本地LLM的速度瓶颈往往不在于纯粹的计算能力,而在于内存带宽:GPU需要反复从显存(VRAM)中读取模型权重,这会消耗大量时间。MTP技术则通过一次前向传递就能检查多个草稿令牌,有效减少了重复读取权重矩阵的次数。

测试中最亮眼的表现是,这项技术实现了约80%的草稿令牌接受率,且不会造成任何精度损失,仅需额外占用1GB VRAM。由于稠密模型的主要瓶颈正是内存带宽,所以它的提速效果会更明显。目前,atomic.chat已将相关代码完全开源。

注:本内容为付费合作内容。

作品声明:内容由AI生成