tmt_logo

tmt_menu

谷歌发布DiffusionGemma开源模型，26B MoE架构加速本地LLM推理

2026.06.11 02:19

谷歌推出DiffusionGemma开源实验模型，260亿参数MoE架构仅激活38亿，量化后占18GB显存。其核心优势是并行生成速度，H100达1000+tokens/s，RTX5090达700+，通过画布初始化与去噪并行优化提升本地GPU效率。

本地大语言模型领域近期传来好消息，谷歌发布了DiffusionGemma开源实验模型。这款模型采用260亿参数的混合专家（MoE）架构，实际仅激活38亿参数，遵循Apache 2.0开源协议，量化后可在18GB显存的设备上运行。

其核心优势在于速度表现：每一次前向传递可并行生成256个token，在H100显卡上推理速度超过1000 tokens/s，RTX5090显卡也能达到700+ tokens/s。

传统自回归LLM采用逐token生成的方式，本地GPU推理往往较慢；而DiffusionGemma则通过初始化256-token的随机画布，再经过多轮去噪传递并行优化整体内容，从而大幅提升了推理效率。

DiffusionGemma模型示意图

作品声明：内容由AI生成

快报

14:34

威海桨板热销欧美

14:05

伊朗军方称已对可能发生的空袭或地面行动做好准备

14:02

伊朗外长与欧盟高级代表通话，讨论地区局势

13:41

伊朗阿曼多轮磋商霍尔木兹海峡问题

13:26

福特公司召回超56万辆汽车

13:25

本周新增3家企业获港股IPO备案，A股公司涛涛车业在列

13:24

本周12家企业启动A股上市辅导，迅芯微、星汉激光、科通技术等贯通半导体全链

12:57

“大空头”伯里据悉加码做空美光和英伟达

12:55

港珠澳大桥恢复通行、通关

12:54

国家发展改革委紧急安排1亿元中央预算内投资支持广东台风灾害灾后应急恢复

12:25

中国蜂群无人机首次实现台风过境全程立体观测

11:45

台风“红霞”减弱，预计明天凌晨离开广东进入湖南

11:20

马斯克：未来某个时刻中国极有可能成为AI领导者

11:19

黄仁勋：杰出的人才总会找到出色的答案，中国注定会产出卓越的AI技术

10:42

极氪回应“境外车机网络受限”：已在App上线“跨境守护”功能入口

10:24

水利部将针对江西、湖南、广东省的洪水防御应急响应提升至Ⅲ级

09:48

深中通道将于今天10时全线恢复双向通行

09:47

伊朗革命卫队：英国如继续支持美军将成“打击目标”

09:26

马斯克身价暴跌，调侃自己是“前万亿富翁”

09:22

香港天文台改发“九号风球”