atomic.chat最近为本地大语言模型(LLM)用户带来了一个好消息——他们研发的多令牌预测(MTP)技术,能让本地LLM在100%离线运行时大幅提升速度。在双RTX 5090显卡的测试环境下,Qwen3.6 27B稠密模型的生成速度从51 tokens/s跃升至117 tokens/s,提升幅度达137%;而Qwen3.6 35B-A3B混合专家(MoE)模型则从218 tokens/s提升到267 tokens/s,增长25%。
MTP技术的核心思路是改变传统逐令牌生成并检查的模式,转而提前生成多个未来令牌的草稿,再一次性验证这些草稿,以此减少GPU的重复运算。本地LLM的速度瓶颈往往不在于纯粹的计算能力,而在于内存带宽:GPU需要反复从显存(VRAM)中读取模型权重,这会消耗大量时间。MTP技术则通过一次前向传递就能检查多个草稿令牌,有效减少了重复读取权重矩阵的次数。
测试中最亮眼的表现是,这项技术实现了约80%的草稿令牌接受率,且不会造成任何精度损失,仅需额外占用1GB VRAM。由于稠密模型的主要瓶颈正是内存带宽,所以它的提速效果会更明显。目前,atomic.chat已将相关代码完全开源。
注:本内容为付费合作内容。






快报