谷歌TPU能撼动英伟达吗？前TPU工程师首次揭秘-钛媒体官方网站

文 | 硅谷101

在AI算力争霸时代，英伟达凭借GPU市值一路狂飙。但如今，它的蛋糕正在被一点点分食——2024年，苹果论文披露Apple Intelligence全部由TPU训练；2025年，Anthropic签下数十亿美元订单，购买TPU训练Claude；近期，Meta与谷歌签署数十亿美元协议，租用TPU跑Llama。

TPU一直是谷歌低调的“自家武器”，在过去十年里驱动着几乎全部核心产品。直到TPU训练的Gemini 3打了一场漂亮的翻身仗，人们才开始重新审视：这套从搜索推荐系统中长出来的定制芯片，究竟藏着多少秘密？

本期硅谷101以视频播客的形式录制，主播泓君邀请到前谷歌TPU工程师Henry。他在2018年至2024年间深度参与了三代TPU的研发，也见证了大模型时代TPU的关键转型。他将从硬件架构、软件生态、生产供应链博弈三个维度，一层层揭开TPU的神秘面纱。

TPU与GPU有着完全不同的设计哲学。Henry用“流水线”与“大厨们”来比喻两者的架构差异：GPU起源于图形处理，采用SIMT架构，如同一个厨房里拥有众多独立思考的大厨，可以并行处理多种任务。而TPU是专为机器学习矩阵计算定制的加速器，通过芯片间互联（ICI）构建起3D Torus网络，让数千张芯片在用户感知中如同一张芯片般协同工作。

他认为TPU挑战GPU的机会在于——在软硬件深度协同下，TPU能够在已知任务负载时，对整颗TPU Pod进行全局算子融合与内存管理优化，将硬件性能“榨干”到极致。这种设计使得TPU在模型相对稳定、需要大规模部署的场景中，能够实现比GPU更低的推理成本。

然而TPU的短板也同样明显：

软件生态上，尽管TPU已向Anthropic、Meta等外部客户开放，但其编译工具XLA仍是一个“黑盒”，外部团队很难独立完成调优。
产能方面，TPU高度受制于被英伟达牢牢锁定的HBM（高带宽内存）产能，以及台积电的CoWoS先进封装资源，且高度依赖博通打通供应链。
更重要的是，作为一款专用ASIC芯片，TPU的通用性远不及GPU。当模型算法以月为单位迭代，每一代TPU都要去押注两三年后的技术走向。若未来模型范式发生变化，TPU还能一直赌对吗？

以下是这次对话内容的精选：

01 TPU v.s GPU架构对决：谁更省钱？谁更强？

泓君：很多人不清楚TPU跟英伟达的GPU，有什么样的不一样。我们可以先简单给听众介绍一下。

Henry：首先TPU和GPU本身的架构是完全不一样的。GPU大家可能了解更加多一些，因为最开始它是做游戏的显卡，它是一个SIMT的架构（Single Instruction Multiple Threading），它是一个多线程单一指令的架构，可以理解成一个厨房里面同时安排着很多很多个大厨，他们每个人都有独立的思考能力。所以你安排很多很多大厨的话，这样并行计算能力就会非常非常强。

泓君：如果我们同样用做菜来比喻TPU的话，你觉得它的流程跟GPU有什么不一样？

Henry：TPU和GPU最大的区别就是，TPU是一个针对机器学习的加速器。我们知道，机器学习任何的算法，里面的核心就是矩阵计算，包括最开始的CNN（卷积神经网络），到现在的Attention，到Transformer，到未来的架构。矩阵计算这个东西是非常Compute Bound（计算密集型）。TPU就是针对这个矩阵计算专门做了一个定制的加速器。用做饭来比喻，TPU是一个流水线，不用安排那么多的大厨，它会把每一个步骤都告诉你具体做什么，比如说第一个人会从冰箱里把菜给取出来给第二个人，第二个人继续做加工传到第三个人。你可以理解成是心脏的泵血，每泵一次，它就会把血液传输到你身体的各个角落。所以这样的话，中间它会少很多的调度和调控，所以能保证每一个计算单元的使用率会更高一些。

泓君：在模型的训练上，这两种不同的架构各自的优势跟缺点是什么？

Henry：我觉得现在预训练，包括后面的推理，我们在慢慢地从Compute Bound（计算密集型）变成Memory Bound（访存密集型），所以我们现在对内存的要求是非常高的。SIMT架构有一个缺陷，因为你需要独立地去做这样的计算任务，所以在一直等数据搬运过来的过程中，有时就会有一些idle period（空闲周期）。所以这个过程当中就会导致它的矩阵计算利用率没有那么高，utilization rate（产能利用率）就会有下降。

我觉得TPU弥补了这个缺点，我们待会儿可以具体聊一下它软硬件的协同效应。TPU会保证它是一个满功率下的运行，它不需要等待数据搬运的过程，它要么利用当地的缓存，把一些提前搬运过来的数据重复去利用，要么把带宽跑满，这样我们可以使内存利用率能达到一个峰值。

泓君：所以用一句话来做结论，你觉得TPU跟GPU它们在模型的训练上谁更强，能优化多少？

Henry：我觉得从预训练上来讲的话，目前GPU和TPU最大的区别就是——当然GPU现在也开始往那个方向去发展——因为TPU一直做系统层面设计，它是一个大的计算集群，而不是单卡单芯片去做预训练。GPU可能很长一段时间都是单张卡的性能非常好，但是它没有一个网络。TPU一直是主打TPU Pod，它是一个有几千张卡的协同训练的状态。它里面牵扯到了很多通信，就是ICI，芯片间互联，它芯片与芯片之间通信和网络，我们叫做3D Torus，一个拓扑的网络。它可以让几千张卡芯片在用户的感觉当中是一张卡的芯片，它中间训练效率是非常高的，这样的话它的成本也可以打得下来。

泓君：我看新闻报道说谷歌V7，就是你研发的这套Ironwood，它的芯片在物理参数上已经非常接近GB200了。所以它如果在真实的工作中，比如同样是训练一个Gemini的模型，同样的参数量，用GPU跟用谷歌的TPU，谁更省钱？

Henry：我觉得这是很好的问题。我的理解是，将来如果说谷歌给其他大模型公司定制的话，我觉得谷歌的性价比（TCO，Total Cost of Ownership）是更高的。当你知道你的任务负载（Workload）是什么的时候，你就可以根据你的任务负载去做一些物理的芯片层面或软件层面的定制。虽然说它可能有点“黑盒”的感觉，当你所有的已知条件都确定下来时，我觉得TPU在现实条件下，它的训练效率还是TCO，都会比GPU更加强大。它的利用率更好的原因，是它的FLOPs（单位时间内做多少次浮点式运算），因为TPU里面主要的架构就是矩阵计算，所以它的软件和硬件可以保证它每个时间、每个计算单元都有活在做。

我们的软件相当于帮助硬件说，我不会让你闲下来，每个时间点你都有工作，但是你具体做什么活，是我告诉你的，你不需要精准地去预测或怎么样。硬件层面说，我们不会加很多的控制单元。这跟GPU很大的区别就是，我们不需要任何的预测，它预测的那一层面相当于都是在软件层面去实现的。所以相当于你把硬件变得更蠢了一点，相当于是一个机械式的劳作，软件那边帮你把所有复杂难题都给处理掉。

所以Ironwood主要有两大进步。一个进步就是它把它的峰值FLOPs数值上跟GPU更加接近了。另外一个点我觉得非常重要，就是它的内存带宽也是有一个巨大的提升，它肯定是用了更大的HBM，保证了一定的带宽。第二点就是这个HBM的带宽它能被软件充分地去利用起来。

02 TPU产能之困 HBM、封装、良率

泓君：更高性能的HBM，从供应链的环节好找货吗？

Henry：非常难找。HBM有点垄断的感觉，一共就三家公司垄断这个生产，应该是SK hynix（海力士）、三星和Micron（美光科技）。英伟达一直是HBM最大客户，TPU一直相当于是一个次要客户。之前TPU一直没有办法获得那么好的HBM，或者说那么大的订单。

谷歌TPU V7之前一直有一个产能的问题，第一点原因是V7之前我们一直没有一个对外的生态，更多是针对内部的部署使用，所以我们没有办法和Broadcom（博通）、TSMC（台积电），或者刚才所说的那几家HBM厂商去锁定一个很大的订单。

第二点，CoWoS属于TSMC的核心产能。我们可以理解成，我们新一代的芯片都是跟以前完全不一样，因为我们现在都做一个co-design，我们的HBM内存芯片和计算芯片是两块独立的芯片，通过一个2.5D stacking的封装把它封装成一个集成芯片。这个TPU Google自己做不了，Broadcom也做不了，它只能依赖于TSMC,所以TSMC给你分配多少产能，你就能达成多少产能。

泓君：如果把现在产能的瓶颈总结一下，一块是CoWoS跟TSMC，在封装上的产能。还有一块是HBM，高带宽的内存供应，由三大垄断巨头去把持。

Henry：还有一点就是良率。良率意味着，当你TSMC把一个wafer die（晶圆晶粒）生产出来之后，它上面这一块wafer上有多少是合格的芯片。因为TPU和GPU的制造理念是不太一样的。TPU主打芯片与芯片之间的通信，这导致它中间的失败率会比GPU还要更高一些。它需要保证整个系统里每张芯片性能大致是一样的，如果有参差不齐的话，它整个系统跑起来的效率就不会有那么的高。但GPU可能就不存在太大这样的问题。我们都知道GPU有自己阉割的版本，比如H100、A100，所以一旦良率不好的话，它可以往下降级。但TPU因为是定制的芯片，不是通用的芯片。所以一旦你良率不行的话，这款芯片相当于报废了。

03 XLA软件黑盒：如何“榨干”硬件性能

泓君：刚刚说到生产环节取决于你订单的量。Anthropic其实要采购谷歌100万颗TPU，也是一个很大的订单。所以谷歌TPU现在看来已经在“蚕食”TPU的市场份额。

Henry：Anthropic这一个订单确实是挺大，我觉得有很多个因素：第一，Anthropic和Google是一个相对内循环，因为Anthropic很多投资方也是Google的，它们是深度合作的关系。第二点，我觉得Anthropic工程师的技术能力非常强，所以他们能用TPU来部署他们自己家的模型。我们等会儿可以详细聊一下为什么TPU的部署在一般第三方客户上那么难。

泓君：所以Anthropic拿下这个订单，我觉得也是有很多因素在里面。那我们就顺着继续讲一下Anthropic。它是不是跟谷歌的整个软件生态有关系？因为在TPU上要搭一层软件，我听过Anthropic的很多人最开始是在Google的，所以他们非常了解TPU上这一套软件生态部署。

Henry：回答这个问题之前，我们可以先简单聊一下XLA。XLA你可以理解成黑盒，也可以理解成是一个Google的秘密武器。我觉得XLA和CUDA最大的区别在于，XLA是一个静态的编译器。静态编译器指的就是，当你的任务负载是已知的或者给定的话，它可以在一个全局的TPU Pod，把它做一个系统级的全局的优化。

优化分很多层面，我知道的，他们会做很多内部的算子融合，比如说你一个kernel里面有很多计算，你还会把一些计算合并到一个计算单元、一个算子，这样的话你能更好地去利用systolic array（脉动阵列）里面的矩阵计算的利用率。中间的结果你不用反复地存进内存再存出来，XLA会帮你自动做这样的优化。它还会做很多的内存管理，怎么去更好地分布你的内存，它知道TPU喜欢怎么从内存里面把数给读出来。这些东西都是跟硬件架构和一些具体的细节是相辅相成的。所以XLA会通过黑盒帮你去优化这样的一件事情。但问题就是，这个事情你是没办法很好地debug和控制的。

泓君：开发者很难去用XLA这套系统，一个原因是编程语言他们不会对吧？它用的是什么编程语言？

Henry：XLA它是一个编译器，它上层是PyTorch、JAX和TensorFlow。相当于你的开发者可以写任何一样的语言，然后它通过XLA可以帮你转化成TPU的Assembly code（汇编代码），就是TPU的指令。它中间是做一个翻译加优化。所以它如果对应英伟达的话，对应的就是CUDA的整个生态体系。

泓君：我们知道在GPU去训练模型的过程中，工程师经常会遇到bug，然后解决它需要在它软件的编译器上，比如说CUDA的生态上，去看看是哪个环节出了问题。现在如果是用谷歌的TPU出了问题，刚刚你也提到了XLA是一个黑盒，那是必须找谷歌的工程师来解决，还是他们自己就可以解决？

Henry：你可以理解成XLA是黑盒，但是它里面有很多的帮助你去debug的一些工具和功能。但它问题就是，你需要对硬件有一些了解才能更好地去分析它。它是可以debug的，但对工程师要求会更高一些。外部的开发者很难独立去处理一个或修补一个bug，不像CUDA有一个很好的生态你可以去处理。

我们有很多软件组专门去对接不同的外部客户，有Apple、有Midjourney，然后Anthropic，我离职之前也听说，他们很多组是非常忙的。

泓君：是的，我昨天听说，用谷歌的TPU最大的团队其实不是Anthropic，最大的团队其实是苹果。苹果是因为庞若明之前在Google，他去苹果的时候，把谷歌的一整套带过去了，然后又直接用的TPU去训练他们的大模型。

Henry：对，我觉得也牵扯到一个软件栈的迁移。就是你要用TPU的话，必须要把原来的一套软件栈全部迁移到JAX、XLA上。如果你不迁移的话，你当然可以去做，它能跑，但你就利用不到TPU那么好的性能和TCO。现在目前TPU相比GPU，它最大的优势就是它成本控制得很好，相比起芯片，它更多是依赖于软件。

04 定制芯片痛点：Transformer先发优势能持续多久？

泓君：你觉得Google的Gemini模型，因为它现在应该是市场上最好的模型，它的训练出来跟TPU的关系有多大？能占决定性因素吗？还是算法是占决定性因素的一部分？

Henry：算法当然很重要，因为我觉得现在，特别是预训练，它CapEx很大。然后它算法我觉得，DeepMind那边有非常前沿的算法。TPU能帮你去做的一件事情是，当你有一个很好的算法之后，你提前跟TPU组沟通好，我是怎么样的一个算法，我怎么样的任务负载，我给你去定制这样的一个加速器。这样的话我能帮助你在一个更短的时间更快地迭代，去测试这样一套算法。我觉得这是一个很重要的事情。如果说你的训练效率很差的话，你需要花更长周期去验证一套算法是否能work。但TPU如果能把你的时间打下来，之后迭代速度你就会更快一些。

泓君：你们定制这样的一个芯片大概要多久流程？

Henry：我觉得这是任何芯片公司的一个痛点。它们很多的时候都是在预测未来市场的变化，包括预测未来模型的变化。之前知道的就是MoE（混合专家模型），也是很早就有这样的一个想法。MoE很长一段时间在TPU和GPU上跑的效果都不是特别好，但是后来TPU和软件一起增加了针对MoE的优化。

泓君：可以详细介绍一下为什么之前MoE一直在TPU上跑不起来的原因？

Henry：因为它是一个2D torus。相当于每个TPU芯片只能跟它的邻居、相邻TPU芯片做通信。所以如果说你没有一个All-to-All的通信的话，这样中间就相当于你要找一个朋友，中间要经过很多个环节。这样的话有很多的浪费，很多的拥堵。

后来在V4的时候，TPU推出了一个3D torus，它用了OCS（光交换机），相当于这是一个软件可编程配置的交换机。你在一个TPU Pod节点，可以通过软件来更改你想通信的那个TPU集群的路径，这样的话就相当于一下子把MoE的痛点给解决了。之后MoE就在TPU上跑起来，效率就会明显比之前高很多。

近万个TPU与ICI连接在一个Pod中图片来源：Google Cloud

泓君：所以我理解这个迭代是以年来计算的。量产的节奏一般是多久？半年打得下来吗？

Henry：打不下来，我觉得每家公司的理念都不一样，TPU一直要做旗舰的训练芯片或旗舰推理芯片，这对快速迭代要求会非常高，因为你每一代芯片都会塞很多样的需求。当你设计完，我们会做验证，然后再交给Broadcom去做通信上面的设计，然后在整个package level做验证，最后交给TSMC。我觉得整个流程最快也要两年到两年半、三年。

泓君：你刚刚提到谷歌已经更新到V8了，这一款我理解它在设计上是两年以前就做了。但是模型的更新，基本上每6个月就变化一次。也就是说，你要在两年前去预测这个模型往哪个方向走。押对了吗？

Henry：目前来讲，V7应该是押对了。这也可以解释一下为什么之前TPU的芯片和GPU在纸面参数上是有挺大的距离的。因为之前TPU主要的任务负载是内部的一些推荐和排序算法，它没有想到GPT出来之后，有这么大的算力需求，是完全不一样的任务负载。

泓君：开始把它所有的核心性能往大模型的预训练上调是哪一代？

Henry：应该就是V6开始的。V6开始做了两个版本，一个是专门做训练，一个专门做推理。训练和推理本质上它们用的是同一套架构，推理可以理解成是训练芯片的一条子集，它可以有更小的运算单元，它可以有更小的内存，因为相比训练，推理不需要做Back Propagation（反向传播），所以它中间不需要存储很多的副本。

泓君：差不多也是在两三年以前开始调整这个方向的。其实GPT在2020年就有GPT-3放出来。谷歌那个时候它已经开始意识到这是一个next big thing，它有去做芯片上的调整或者GPU上的调整吗？

Henry：对，因为Transformer也是Google提出来的，然后根据这套架构，芯片组很早就知道，如何去做这一套架构的优化，包括Attention kernel。

泓君：我觉得谷歌的TPU到现在它能在整个模型预训练中性能表现非常的优秀，也是因为Transformer这套架构是谷歌发明的。然后从TPU的诞生开始，它就一直走的是这条路径。所以我们其实也可以把TPU理解成一个针对于大模型预训练或者推理的ASIC，这样说是对的吧？然后你这个ASIC就一定要押对方向，它押到了Transformer。

Henry：对。我们相当于是一个先发的优势。本质上ASIC和GPU，一个是通用性好，一个是通用性不好。一旦有个新的算法上的动态改变，你在TPU上就很难去实现这样一件事情。即使你有先发优势，但后面的竞争会越来越激烈。这样的话，你的先发优势可能也会慢慢被蚕食。

所以说GPU胜就胜在它——因为现在模型迭代周期非常短，都是以月来做单位。我觉得有一个阶段就是GPU，因为它通用性好，所以GPU上去跑模型的迭代速度会比TPU更快一些。

泓君：那现在是哪个阶段？TPU更快？

Henry：目前V7感觉跟GPU Blackwell已经是旗鼓相当了。但是我担忧的一点就是，这一套架构它的可扩展性到底有多强，万一将来有一个不同的范式，它怎么去跟上GPU的步伐。

一块Ironwood板卡图片来源：Google Cloud

泓君：如果出现了类似于不同于Transformer的新的架构，那TPU就不一定有GPU的表现好。

Henry：是。

泓君：RL（强化学习）对TPU的影响会大吗？

Henry：肯定会是不一样的任务负载，肯定是会有影响的。我觉得现在TPU的策略就是把芯片变得更加通用，往这样一个方向去发展。相当于它矩阵单元可以处理各种任务负载的矩阵计算，它也有专门负责去处理一些稀疏矩阵计算的单元。它可以理解成把很多硬件上的一些计算和内存模块化，来适应将来不同的范式。

泓君：所以从某种意义上来讲，也是一个向通用性的妥协。

Henry：对，我觉得之前以往几代芯片可能设计得没有那么激进的原因也是有一部分的考量。如果一旦设计得非常激进，你可以在Gemini上模型效率提升30%到40%，但万一有变化呢？万一有变化，那回去的话就会非常的痛苦。所以我觉得这是一种基于现实的妥协。

05 供应链命门：博通为何关键？

泓君：我最近是看到一条新闻，说Google跟Meta也有一个这样的TPU采购协议，然后谷歌向Meta提供TPU的托管服务。

Henry：我觉得它可能更多是依托于谷歌云，提供更多算力。软件侧的话，我离职之前也知道有很多组在做PyTorch和XLA的结合，但因为PyTorch算子实在太多了，如果不在硬件上原生地去支持这些算子的话，性能表现就会比较差一些。如果直接用谷歌云的话，你相当于是托管了，没办法做很多底层的控制，性能就会有浪费。

泓君：这个浪费大概会在多少的百分比？

Henry：这就是我刚才说到模型利用率。如果你结合得非常好的话，能几乎满状态地达到一个峰值FLOPs或峰值内存带宽。但是如果你用谷歌云来跑的话，你很有可能用到只有50%到60%的利用率，但是你还是要付同样的钱。目前我知道，直接购买TPU机架的只有Anthropic，其他都还是谷歌云。

泓君：我注意到谷歌API接口的成本大概最开始只有Open AI跟Anthropic的十分之一。同时，Anthropic最近的Claude Opus 4.5，它的API接口大概是下降了67%。有媒体报道把这部分归功于它是用谷歌的TPU训练的。

Henry：推理成本上确实是这样的。Google现在的推理芯片成本确实会比GPU要高不少，原因就是集群的推理，它的TCO就能打得下来。还有一个原因刚才没有提到——GPU的集群它用的是NVLink、NVSwitch这样的一种通信协议，这其实很烧钱，你可以理解成是一种基础设施税。你需要跟很多不同厂商去买这种交换机，然后部署在你的数据中心当中，这是一个很大的成本开支。Google因为它用了不一样的拓扑架构，它用了芯片与芯片之间直接通信，它用的是铜，不用交换机，只有在某些节点上用一些光学交换机，但也比较少，实现了同样的通信效果。所以它在成本支出上会比GPU要好很多。

泓君：所以在建数据中心的这一环，成本已经拉开了。英伟达的主要成本是交换机，谷歌的主要成本是什么？是液冷吗？

Henry：液冷是一块。其实跟英伟达也差不太多。主要成本也是它的一些SerDes（串行器/解串器），这种SerDes就相当于是把信号从一个芯片准确无误地传输到另外一个芯片。因为相比GPU，TPU更多依赖于SerDes的稳定性，所以这一块资本支出还是很高的。

TPU的液冷设备图片来源：Google Cloud

泓君：谷歌跟Broadcom的合作会持续多久？是不是如果量大了，谷歌可能就自己做了？

Henry：Broadcom好处就是它可以帮最大的客户去争取最大的产能，就是CoWoS和TSMC。所以说一直以来，TPU都是跟Broadcom去做这样一个合作，目前我不觉得会有很大的改变。但这样导致一个不好的问题就是，Broadcom的议价权会越来越大。如果非常依赖Broadcom，没有一个备选的话，你在成本上就很难控制得下来。

泓君：所以谷歌它能直接跟CoWoS这一块来议价吗？决定的核心要素是什么？

Henry：主要还是HBM。我理解Broadcom是一个中间的环节，它会把所有的东西全部帮你铺设好，然后交给TSMC去量产。所以我觉得，第一你需要去拿到一个很好的HBM的产能，再通过Broadcom去跟TSMC争取一个好的CoWoS。

泓君：我听说现在整个HBM的产能被英伟达垄断了。

Henry：基本上是垄断了。因为刚才也提到，现在我们已经慢慢从计算密集型转向内存密集型，特别是像现在的Attention kernel，核心就是一个你怎么样去更快的从内存里把数据给搬运出来。未来几年的方向可能就是HBM能决定你的上限。如果你买不到好的HBM的话，那你的训练效率就会大打折扣。

泓君：所以博通的主要核心作用是在这一块？

Henry：博通主要的核心作用是做很多的通信ICI（Inter chip interconnect）。我们TPU团队主要设计它的前端。我们相当于是把一张图纸给打印出来，然后Broadcom会把每个芯片之间物理上去连接起来，去布局这样一个拓扑的网络。你可以理解成脏活累活，也可以理解成这是一个非常吃经验的，也是技术壁垒非常高的核心环节。

06 TPU十年进化史

泓君：如果我们用一句话来总结，你觉得现在谷歌的TPU可以挑战英伟达的在GPU的垄断地位吗？或者说至少是我去阻挠一下英伟达在这个市场上绝对的定价权？

Henry：没有绝对答案，但我的结论是，在某些限定的条件下，TPU是完全可以挑战GPU的。限定条件就是大规模部署。因为TPU它主打就是走量。TPU其实不太擅长做一件事情就是，它没办法针对一个单用户，比如说做Agent，它就不太适合，因为它延迟会比较高一些。它必须在一个非常大的吞吐量下，比如有很多用户同时去调用这个接口，才能把成本分摊开来。如果在大规模部署、模型相对比较稳定，不需要很多的变动的情况下，它的整体的成本就会相比GPU有很大的优势。

泓君：综上我们所说的，我试着总结一下TPU跟GPU的优势跟劣势。

整体来看，现在TPU在性能上，包括在模型的训练上，如果你用得好的话是可以把它跑满的，它可能会达到GPU的性能甚至是比它跑得更好。在数据中心的部署上，它是更省成本的，这个是它的一些核心优势。同时，用了它你的推理成本可以降低。

它的缺点就是，首先我们在软件的生态上，XLA还是一个比较难入门的核心门槛，它没有英伟达CUDA生态。另外一点，它在整个的起量上，包括对HBM供应链的控制上，还是比较弱的。还有一个核心的问题就是说，如果大家使用了TPU，但是你内部没有特别懂的人，它还是一个黑盒，就是你没有办法用自己的工程师去把它调优，然后把它的性能跑满。如果用谷歌云的话，可能只能跑到50%到60%的性能。

在这种情况下，它跟GPU谁的性能更好，现在其实也是一个很难说的话题。所以整体上我们看到是这样的一个趋势。TPU最大的核心问题就是说，未来如果整个模型在架构跟算法上有升级，它类似于一款专用的ASIC芯片，通用的GPU是更有优势的。但是如果你们的算法赌对了，你们就是有核心优势的。我的总结准确吗？

Henry：非常精确。

泓君：其实我们前面聊了这么多的TPU，你要不要跟大家再简单地回溯一下，谷歌是怎么样去发明TPU的？它的历史是什么？然后谁是中间的核心人物？

Henry：我们最开始TPU主要是针对内部CNN这个大模型的一个加速器。最开始第一代芯片只是一款推理芯片。最开始的初衷就是大家发现，我们内部有很多线上推荐系统，但它的推理都是用CPU来做推理。大家都知道CPU的并行效果是非常差的。那时候也没法用GPU，因为那时的GPU还没有加入矩阵计算单元。谷歌说为什么我们不自己开发一款只做矩阵计算的模型。所以这就是最开始的初衷。Jeff Dean，包括后来图灵奖的获得者David Patterson深度参与了第一代模型的架构。

第二代芯片，就是一个非常旗舰的做训练的模型，包括我们后来知道的AlphaGo、PaLM、Bard、早期的Early Transformer，包括后来Transformer，都是用了这一套架构去做的训练。但那时候有一个比较大的问题就是，先有了硬件，但是软件还没有跟上来，那个协同效应还没有产生。中间我们也提出了系统级的TPU Pod，一个拓扑的网络，这也是奠定了现在TPU能有出色性能的基础。

在这期间我们又针对推荐和排序的算法加入了一个Sparse Core（稀疏式的计算单元），这也很好地解决谷歌内部的推荐的一些任务负载。

然后V5、V6的话就是开始进入大模型时代了，所以我们那时候针对Transformer做很多的优化，中间还推出了一个推理的版本，因为推理市场需求非常大。

泓君：TPU刚刚诞生的时候，还有一些特别好玩的故事。当时Jeff Dean是谷歌的首席科学家，2013年左右他是在一次内部的演示中，讲深度学习网络会怎么样去在语音识别上有一个突破性的进展，那个时候大家就发现，我们需要的是GPU，而不是CPU。

后来他们就开始在内部去Demo这个事情。然后Jonathan Ross，现在已经是英伟达的首席软件架构师了，因为英伟达收编了Groq，他当时内部演示的时候就放了两页PPT。第一页是，好消息：这个GPU真的是工作了。第二页就是，坏消息：我们付不起这个钱。如果所有的用户他们给谷歌发三分钟的语音的话，那么当时谷歌整个数据中心的成本会增加一倍，大概是数百亿美元，是非常大的一个量。这个其实也是他们开始去研究TPU的一个起点。接下来的故事就是AlphaGo击败围棋冠军李世石的时候，谷歌已经在用TPU了，而且据说在他们的AI算法里面是放了四张TPU。

07 新星Groq：踩准每一次红利的编译器公司

泓君：刚刚提到了Jonathan Ross，我们要不要讲一下Groq？因为英伟达也是把它收购了。然后它在推理芯片端，我记得它最开始出来的时候，它的整个性能表现，包括它说的那些方案，在业界还是让很多人动心。

Henry：对，我觉得我当初也跟他们内部团队人聊过。目前他们被英伟达收购，是踩准了每一个时代的红利，踩准了每一个很好的时间点。第一个时间点就是推理，第二个时间点是ASIC，第三个时间点就是今年是Agent元年，有很多智能体的爆发。Groq最好的一个应用场景就是Agent，智能体。因为Agent智能体它对延迟的要求是非常高的，如果说你的延迟做得很差的话，整个帮你去做这个任务的链条就会被拉到无限长，对于单用户来讲是非常痛苦的一件事情。所以Groq能很好地去解决或者说解决这样的一个问题。

Groq的芯片，因为Jonathan Ross最开始是TPU的编译器团队，是TPU compiler那边的一个类似于创始人。相当于他是带了一套非常成熟的TPU的编译器XLA的经验去创立了Groq。所以Groq你可以理解成它是一家编译器的公司，而不是一家芯片公司。因为它的芯片更多是为它的软件编译器服务的。它的硬件可能比TPU更加单一，或者说没那么的智能一些。编译器在某种程度上决定了一切。它LPU里面每个时间点，每个计算单元里面去做哪些事情，它可以精准到每一个cycle，都是用编译器去确定好的。一个确定性非常高的事情。

Groq LPU 图片来源：Groq

泓君：你刚刚提到他们精准地踩到了每一个时代的红利点。第一轮是推理，第二轮是ASIC，第三轮是Agent。这三个时间点对芯片的要求有什么不一样吗？

Henry：Groq最开始就主做推理，它不做训练，它软件和硬件的架构决定了它做不了训练。第二个ASIC的话，相当于它的成本更加可控一些。

泓君：它是针对哪个方向的ASIC？

Henry：它是针对低延迟的ASIC，主要是做低延迟。

泓君：所以现在Agent，我可以理解，比如说现在我们用Agent觉得延迟很低了，它还是有硬件层面的提升的。

Henry：对。谷歌的TCO好的原因，就是有海量客户同时去用这样一个推理服务，它的吞吐量就会很高，但它不在乎尾部延迟。尾部延迟指的就是单用户用的话，它可能会有时候会快，有时候会慢一点，相信大家也都会有这样的体验。但是Groq，你一旦去用的话，它就会非常非常快。它的原理第一是它的SRAM静态随机存取存储器。第二，它是一个相当于你一个人占用了非常多的LPU资源，而不是跟很多人去共享。

泓君：它踩上的Agent红利是什么？

Henry：适合Groq去服务的场景，第一个是Agent，第二个是实时语音，还有一些高频的交易，这些场景对延迟要求会更高一些。我觉得它就是主打一个市场的差异化。现在主流的市场都是做这种大模型的推理和训练，它可能就是针对一些小规模部署的计算集群做这样的一个低延迟的性能优化。

泓君：你觉得未来在整个Agent的应用中，推理芯片它会是一个百花齐放的格局，还是说它依然是英伟达的GPU为主导的？

Henry：我觉得自从去年Deepseek出来之后，大家一下子发现如果你成本打下来之后，推理的需求是非常大的，会有很多不同层次的市场。当然Google和TPU肯定会占据最高层，就是最大规模那些部署的，包括云、包括那些大模型的推理。中间和下面的一层，我觉得会有更多的玩家，更多的参与者进来。

泓君：所以未来整个芯片市场在推理端也会分层，然后分应用场景。

Henry：对。最大量的需求还是这些大的巨头。你没办法说我要做下一家英伟达，你基本上做不到，因为它护城河实在太深了。你要是做初创公司的话，只能做一些尾端的客户。

很多人都在讨论TPU和GPU之间区别、孰优孰劣，但我觉得未来肯定是两者并存的。包括所有很多大厂都在自研自己家的芯片，不管是推理还是训练。我觉得你不能说GPU将来会一统江山或TPU会一统江山，我觉得这个生态是一个非常健康的生态。有定制的环节，也有通用的环节，有通用的场景，也有定制的场景，也有垂类的场景。所以我觉得将来是百花齐放的一个格局。所以一旦产能、各方面供应链都解决问题之后，我觉得对用户来讲都是件好事情，一下子把成本降下来之后，你能做的事情就有无限的可能。