谷歌发布DiffusionGemma开源模型,26B MoE架构加速本地LLM推理

2026.06.11 02:19
谷歌推出DiffusionGemma开源实验模型,260亿参数MoE架构仅激活38亿,量化后占18GB显存。其核心优势是并行生成速度,H100达1000+tokens/s,RTX5090达700+,通过画布初始化与去噪并行优化提升本地GPU效率。

本地大语言模型领域近期传来好消息,谷歌发布了DiffusionGemma开源实验模型。这款模型采用260亿参数的混合专家(MoE)架构,实际仅激活38亿参数,遵循Apache 2.0开源协议,量化后可在18GB显存的设备上运行。

其核心优势在于速度表现:每一次前向传递可并行生成256个token,在H100显卡上推理速度超过1000 tokens/s,RTX5090显卡也能达到700+ tokens/s。

传统自回归LLM采用逐token生成的方式,本地GPU推理往往较慢;而DiffusionGemma则通过初始化256-token的随机画布,再经过多轮去噪传递并行优化整体内容,从而大幅提升了推理效率。

DiffusionGemma模型示意图

作品声明:内容由AI生成