本地大语言模型领域近期传来好消息,谷歌发布了DiffusionGemma开源实验模型。这款模型采用260亿参数的混合专家(MoE)架构,实际仅激活38亿参数,遵循Apache 2.0开源协议,量化后可在18GB显存的设备上运行。
其核心优势在于速度表现:每一次前向传递可并行生成256个token,在H100显卡上推理速度超过1000 tokens/s,RTX5090显卡也能达到700+ tokens/s。
传统自回归LLM采用逐token生成的方式,本地GPU推理往往较慢;而DiffusionGemma则通过初始化256-token的随机画布,再经过多轮去噪传递并行优化整体内容,从而大幅提升了推理效率。






快报