Rohan Paul在X平台分享了他的测试体验——直到亲自验证后,他才敢相信Kog带来的惊人推理速度:在标准数据中心GPU上,单用户场景下竟能达到3000 tokens/s。Kog团队捕捉到了GPU生成token过程中被忽视的效率空间:在8块AMD MI300X组成的集群上,速度能稳定在3000 tokens/s;即便是8块NVIDIA H200(FP16精度,未启用投机解码),也能达到2100 tokens/s。他们的技术预览基于20亿参数模型,同时证明该方案能扩展到大型前沿MoE模型,且速度表现不会大幅下降。对比之下,常规低批次GPU解码场景中,20亿到80亿参数模型的单请求速度通常只有100-300 tokens/s——这意味着Kog的方案实现了10到30倍的速度提升。
Kog的核心思路在于重新定义LLM解码的本质:他们不将其视为单纯的数学运算问题,而是聚焦于内存流的优化。当单用户批次为1时,GPU不再像训练或大批次服务那样进行高效的矩阵运算,而是反复从高带宽内存中调取模型的活跃权重——此时速度的瓶颈完全取决于权重流动是否顺畅。但常规推理框架会打断这个流畅的流程:它需要运行多个独立的GPU程序,频繁移动中间结果,等待同步节点,还要与CPU交互完成调度或采样——这些操作会在每个token生成时重复一次,严重拖慢速度。
Kog的解决方案是对三个通常独立优化的模块进行协同设计:运行时系统、底层GPU代码和模型架构。其中最关键的工程突破是“单内核”设计:整个解码过程(包括采样环节)都作为一个持久驻留在GPU上的程序运行,彻底消除了内核启动、CPU调度和中间内存往返带来的停顿。他们还重构了同步机制——通过测量发现,网格同步要占用生成单个token时间的35%,于是将其改为每个计算单元只等待自己需要的数据,而非全局同步。针对AMD MI300X,团队还根据其chiplet布局优化了内存访问映射——因为不同chiplet的内存请求延迟存在差异,这种映射能让数据调取更高效。另外,他们自研的Laneformer模型采用了延迟张量并行技术,让跨GPU的通信能在后台异步进行,而不是阻塞每一层的计算流程。






快报