计算速度超越英伟达的Groq，凭什么这么惊奇？-钛媒体官方网站

图片来源@视觉中国

文｜董指导聊科技

今天国内AI科技圈、AI炒股圈，都被一则消息振奋了，“大模型最快推理芯片的一哥换人了，不再是英伟达了”。

海外公司Groq基于自研芯片推出的推理加速方案，速度比英伟达的GPU快了十倍，成本却降低为十分之一，一来一去，百倍提升。难怪大家会兴奋。

由于Groq不再采用HBM，而是利用SRAM来加速，于是资本市场也把SRAM当了宝贝，相关上市公司股价快速上涨。

那么，Groq凭什么这么惊奇呢？SRAM就这么好用？

我翻看了Groq发布的论文，凭着仅存一点点的计算机原理，大概理了一点思绪。

1、首先，Groq的产品设计场景，主要是“推理”阶段，而英伟达目前产品在大模型训练阶段更好用。因此，Groq的方案更突出“实时”。

2、其次，这还是一个“专用VS通用”的故事。

在AI领域，为什么GPU能打败CPU呢？因为CPU就像一位教授，懂得多、能写会算做事讲逻辑；而GPU呢，就像高中生，虽然懂得不多，但架不住人多、又能并行运行。如果只是解二元方程的话，那一百个高中生、同时计算，肯定比一个教授要高效得多。

于是，GPU在AI领域，利用并行计算的优势，大获全胜。

但是，GPU也还算个多面手。从下游客户就能看出来，游戏宅男们希望买到英伟达的显卡，数字货币的矿工们也希望买到英伟达显卡，搞气象科学的、搞AI的也都希望买到英伟达的显卡。多需求也必然会带来一些功能设计、计算资源的冗余浪费。

那么，再来一个专门、只用于机器学习的芯片，岂不是更加高效？

这就是谷歌TPU（Tensor Processing Unit）芯片的思路。Tensor来自于谷歌TensorFlow深度学习框架，突出了TPU为深度学习而生。

Groq的创始人就来自于谷歌，设计并实现了第一代TPU芯片的核心元件。他们团队根据TPU的经验进行了进一步优化，于是有了LPU（Language Processing Unit），专为AI计算提供高确定性的低延迟和高性能。

我看到他们这个介绍的时候，仿佛面前站着一排人在说：就是要让你牛逼，谁也拦不住。

3、核心问题是，为什么LPU会更高效呢？这里就涉及到指令调取等知识了。复杂的我不讲，主要也是已经不懂了。说些大致的原理。

A、计算有两个必不可少的步骤：读取数据+执行指令。

而LPU就是为机器学习设计的。所以，预先就把机器学习高频需要的指令，进行了定制，有一套适用于机器学习的指令集架构ISA。

知道客户要什么就准备什么，肯定比什么都准备要高效。

B、其次，把深度学习的数据操作流程，拆解为了更微小的操作，并通过不同的硬件排列，实现了功能交替。

主要功能硬件包括矩阵单元MXM、用于逐点运算的vector单元、用于数据重塑的SXM单元、以及存储器单元。而这里的存储用的是SRAM。

Groq将这个方式称之为“链条化（chaining）”。可以粗暴理解为，GPU还要解二元方程，LPU把二次方程进一步拆解，有人专门做合并、有人做计算。或者说，像福特汽车设计了流水线一样，效率大幅提升。

相比而言，英伟达的GPU采用的HBM技术，也是为了加快读取数据、处理数据的速度。但数据存在DRAM里，再调取到GPU里，就会产生时延。

C、LPU采用的SRAM，比英伟达采用的DRAM要快得多。

SRAM中文是静态随机存取存储器，DRAM就是动态存储器。SRAM是用触发器来存储信息，而且不需要对数据进行刷新，也可以同时送“行、列”地址。而DRAM是用电容存储数据，需要刷新来保持数据，不然数据会丢失。行、列地址也是分两次送的。

所以，结果就是，SRAM运行速度要显著快于DRAM。

为什么LPU采用SRAM，而英伟达采用DRAM呢？我的理解是，还得回到开头的那句话：场景不一样啊。

Groq面向未来AI大爆发后的“推理”阶段，用户是实时交互的，数据也是实时的，数据进、数据出的，采用高速存储合适。

而英伟达目前是应用于训练，训练必然有大量数据，且对实时要求没那么高。那用成本更低的DRAM也是合适的。

D、Groq强调，友商是通过“Hardware-defined硬件定义”的方法来实现大规模互联网络，而我们是靠“Software-defined软件定义”的思路，基于tensor streaming processing (TSP) 实现大规模互联。通过软件预先设计，可以使得硬件更高效、可控。

E、所以最终效果就是，Groq的芯片，相当于多个功能单元组成一个大的计算单元；而友商则是把小型计算单元，复制多次。

还是用造车举例子就是，LPU就是流水线工厂，100个员工分几组，每个组、每个人职能明确、配合娴熟；而友商是100个员工，每个人都擅长多个环节、都会造一辆车。福特流水线，已经证明了专业、细分、分工的有效性。

因此，LPU对于LLM大语言模型而言，非常适合。

4、LPU引起的热烈讨论，是不是也反映了一个趋势：简单、专用的，打败复杂、通用的。把一件事情做到极致，就已经完美了。

计算，越来越专业、垂直；但大模型，却又是在往通用、多模态发展。未来如何演绎，应该会非常精彩。希望中国玩家们不缺席、上舞台，也有机会站C位。

计算速度超越英伟达的Groq，凭什么这么惊奇？