Kog实现单用户3000 tokens/s LLM推理速度，突破GPU效率瓶颈

2026.05.30 02:18

Rohan Paul测试发现，Kog技术在标准数据中心GPU上单用户推理速度达3000 tokens/s：8×AMD MI300X为3000，8×NVIDIA H200（FP16无投机解码）为2100。该技术通过将LLM解码视为内存流问题，协同设计运行时、底层GPU代码和模型架构，较常规速度提升10-30倍，还可扩展至大型MoE模型。

Rohan Paul在X平台分享了他的测试体验——直到亲自验证后，他才敢相信Kog带来的惊人推理速度：在标准数据中心GPU上，单用户场景下竟能达到3000 tokens/s。Kog团队捕捉到了GPU生成token过程中被忽视的效率空间：在8块AMD MI300X组成的集群上，速度能稳定在3000 tokens/s；即便是8块NVIDIA H200（FP16精度，未启用投机解码），也能达到2100 tokens/s。他们的技术预览基于20亿参数模型，同时证明该方案能扩展到大型前沿MoE模型，且速度表现不会大幅下降。对比之下，常规低批次GPU解码场景中，20亿到80亿参数模型的单请求速度通常只有100-300 tokens/s——这意味着Kog的方案实现了10到30倍的速度提升。

Kog的核心思路在于重新定义LLM解码的本质：他们不将其视为单纯的数学运算问题，而是聚焦于内存流的优化。当单用户批次为1时，GPU不再像训练或大批次服务那样进行高效的矩阵运算，而是反复从高带宽内存中调取模型的活跃权重——此时速度的瓶颈完全取决于权重流动是否顺畅。但常规推理框架会打断这个流畅的流程：它需要运行多个独立的GPU程序，频繁移动中间结果，等待同步节点，还要与CPU交互完成调度或采样——这些操作会在每个token生成时重复一次，严重拖慢速度。

Kog的解决方案是对三个通常独立优化的模块进行协同设计：运行时系统、底层GPU代码和模型架构。其中最关键的工程突破是“单内核”设计：整个解码过程（包括采样环节）都作为一个持久驻留在GPU上的程序运行，彻底消除了内核启动、CPU调度和中间内存往返带来的停顿。他们还重构了同步机制——通过测量发现，网格同步要占用生成单个token时间的35%，于是将其改为每个计算单元只等待自己需要的数据，而非全局同步。针对AMD MI300X，团队还根据其chiplet布局优化了内存访问映射——因为不同chiplet的内存请求延迟存在差异，这种映射能让数据调取更高效。另外，他们自研的Laneformer模型采用了延迟张量并行技术，让跨GPU的通信能在后台异步进行，而不是阻塞每一层的计算流程。

作品声明：内容由AI生成