亚马逊Trainium外售：从卖水人到卖铲人

亚马逊AI主管透露已开始与外部公司商讨出售自研AI芯片Trainium，此前该芯片仅通过AWS以云服务形式提供。CEO贾西在今年4月的股东信中披露，涵盖Graviton、Trainium等的自研芯片业务年化营收已超200亿美元，对外销售可达500亿美元规模。这一战略转身不仅是产品策略的变化，更标志着亚马逊从云计算服务商向芯片直销商的身份重塑，也预示着AI基础设施市场从单极走向多极的竞争新格局。

全球最大的云计算公司，正在认真考虑变成一个芯片公司。这不是比喻。

2026年6月18日，亚马逊AI主管彼得·德桑蒂斯（Peter DeSantis）在接受彭博社采访时投下一枚深水炸弹：亚马逊已开始与外部公司商讨出售其自研AI芯片Trainium——这些芯片此前仅通过AWS以云服务形式"租"给客户。当被问及此举是否会冲击AWS的AI云业务时，德桑蒂斯的回答干脆利落："不会。AI算力市场的增长空间太大了。"

亚马逊CEO安迪·贾西（Andy Jassy）在今年4月的股东信中已经埋下了伏笔。他写道，Trainium3芯片产能"几乎售罄"，并直言"很有可能"将整机架的芯片实体直接卖给第三方开发者。两个月后，这个"很有可能"变成了正在谈判桌上的现实。

一个500亿美元的芯片业务，藏在AWS里

大多数人提起亚马逊的芯片，第一反应是"哦，AWS自家用的那些"。这个印象没有错，但严重低估了规模。

贾西在4月9日发布的2025年度股东信中披露了一组惊人的数字：涵盖Graviton（服务器CPU）、Trainium（AI训练芯片）、Inferentia（AI推理芯片）和Nitro（虚拟化加速卡）的亚马逊自研芯片业务，年化营收已超过200亿美元，而且正在以三位数百分比同比增长。贾西进一步指出，如果把这个芯片部门独立出来、像英伟达或英特尔那样直接向第三方出售芯片和机架，其年化规模有望达到500亿美元。

500亿美元是什么概念？全球AI芯片市场2025年的总规模约为944亿美元。这意味着亚马逊芯片业务仅凭"独立运转"一项，就有可能占到整个市场的一半以上。当然，这500亿包含了通过AWS"间接销售"的部分——但关键在于，外售一旦落地，这个数字将真正开始从AWS的会计报表中走出来，成为一条独立的营收曲线。

德桑蒂斯透露，最新上市的Trainium3芯片产能已接近售罄，性能较上一代提升4.4倍；而距离正式上市尚有约18个月的Trainium4，其相当一部分产能已被预订。这种"期货式"的抢购热情，在AI芯片市场此前只属于一家公司——英伟达。

十年蛰伏：从3.7亿美元收购到AI芯片三强

亚马逊造芯片的故事，要从2015年说起。

那一年，亚马逊以约3.7亿美元的价格低调收购了以色列芯片初创公司Annapurna Labs。没有新闻发布会，财报里只有一条简短声明。外界普遍认为这只是亚马逊众多实验室投资中不起眼的一笔——甚至很多人以为Annapurna只是做ARM服务器芯片的。

回过头看，这笔交易可能是亚马逊历史上最被低估的战略收购之一。Annapurna Labs的团队先是从Nitro虚拟化加速卡切入，帮助AWS构建了底层硬件能力。2018年，亚马逊推出了第一款自研推理芯片Inferentia，正式宣告进军AI硬件。

但真正的转折点在2021年。那一年，AWS发布了首款用于训练AI模型的芯片Trainium。训练芯片的技术难度远高于推理芯片——训练需要处理海量数据和复杂的梯度计算，对精度、带宽、互联的要求都极为苛刻。第一代Trainium基于7纳米工艺，集成约550亿个晶体管，于2022年开始为EC2 Trn1实例提供算力。亚马逊宣称，在特定工作负载下，Trainium的每token成本比基于A100的集群低54%。

2023年底的Trainium2将训练速度提升了4倍，采用5纳米工艺，在H200/H100面前打出了"性价比提升30%-40%"的牌。2025年底的Trainium3更是直接将工艺推进到3纳米——每台Trainium3 UltraServer集成144颗芯片，提供362 petaflops（FP8）的总算力，液冷能效比前代提升近4倍。OpenAI的GPT-OSS模型测试显示，每颗Trainium3的吞吐量达到前代的3倍，响应速度快4倍。

十年时间，从推理到训练，从7纳米到3纳米——亚马逊的芯片野心，一直在AWS这棵大树下悄悄生长。而现在，它准备走出树荫。

从"卖算力"到"卖芯片"：一个商业逻辑的质变

理解亚马逊这次转身的深层逻辑，需要先回答一个问题：为什么是现在？

过去十年，亚马逊的芯片策略只有一句话：造芯片，是为了让AWS更好。Graviton替代Intel/AMD的x86服务器，成本更低、能效更高——AWS上约98%的Top 1000 EC2客户在使用Graviton，总客户数超过12万家。Trainium和Inferentia则负责AI负载，让AWS在英伟达GPU之外提供第二个选择。芯片是AWS的"成本中心"，也是差异化竞争力。

但这个等式正在被打破。

第一，AI算力需求已经大到AWS自身吃不下全部市场。全球AI芯片市场预计2026年突破1200亿美元，2035年突破1.1万亿美元。即便AWS的增速再快，它也只是一朵云——而那些需要Trainium的客户，未必都想把全部工作负载放在AWS的机房里。Meta、特斯拉、xAI这些AI巨头，都在疯狂建设自营数据中心。如果能直接把Trainium芯片和机架卖给它们，亚马逊就能从一个云服务商变成AI基础设施的"水电煤"供应商——无论客户用哪朵云，只要用Trainium芯片，亚马逊就能赚钱。

第二，客户结构已经发生了质变。2024年底，Anthropic宣布Project Rainier计划——使用近50万颗Trainium2芯片的集群训练Claude模型，AWS预计到2025年底将扩展至超过100万颗，这是AI史上最大的单芯片部署承诺之一。2025年11月，OpenAI与AWS达成380亿美元的长期云合作承诺；2026年2月，亚马逊进一步向OpenAI投资至多500亿美元（其中150亿美元先行到位），并确认OpenAI将消耗约2GW（吉瓦）的Trainium计算容量。苹果也在早期测试Trainium2芯片进行模型预训练，效率提升达50%。

这些客户不只是AWS的租户——它们是AI时代的基础设施级用户。它们在寻找英伟达之外的第二个选择，而亚马逊手上恰好有现成的答案。

第三，贾西的算盘很精明：外售芯片不会侵蚀AWS的AI云业务，因为两者的客户画像天然不同——选择云服务的客户看重弹性、运维托管和按需付费；选择买芯片的客户看重硬件成本、自建集群的自由度和长期规划。德桑蒂斯在接受采访时明确表示，他不担心"左右手互搏"的问题，因为市场的增量足够大，两种模式可以并行。

这听起来像一个经典的亚马逊式操作：先通过AWS把芯片"养大"，验证规模化和可靠性，然后打开新的通路。就像当年的AWS本身——最初只是为内部服务设计的基础设施，然后变成了世界上最大的云计算生意。

三方围攻英伟达：盟友还是各自为战？

亚马逊选择在这个时间点推进外售，还有一个重要的外部因素：AI芯片市场的竞争格局正在被重塑。

英伟达依然是绝对王者。2025年第四季度（英伟达FY2026 Q4），英伟达营收681亿美元，同比增长73%。CEO黄仁勋刚刚宣布找到一个"全新的2000亿美元市场"——把CPU卖给AI公司。这等于一脚踩进了Intel和AMD的地盘。

但围攻正在从三个方向同时展开。

谷歌是最早的"自研玩家"。2016年就开始部署TPU，2026年4月发布了第八代TPU——首次将训练和推理芯片分拆为TPU 8t和TPU 8i。8t超算集群峰值算力121 exaflops（FP4），是上一代Ironwood的约3倍。有分析师估算，谷歌TPU业务独立运营的价值可能高达9000亿美元。

微软有Maia芯片，Meta有MTIA，甚至连OpenAI都开始自研芯片。每一家云计算巨头都在试图打破对英伟达的单一依赖。但问题在于——它们彼此之间的芯片并不通用。谷歌的TPU只部署在Google Cloud上，微软的Maia只跑Azure，亚马逊的Trainium此前也只服务AWS。

这意味着什么？整个AI芯片市场正在走向一个"各自封闭"的格局。每家云厂商都在自己的围墙里种芯片。而亚马逊Trainium外售，可能是打破这个局面的第一个变量——如果亚马逊愿意把Trainium卖给Meta、xAI、特斯拉这类"多云/自建"客户，就已经是触手可及的现实。

另一个不容忽视的变量是Broadcom。这家半导体巨头在AI ASIC设计代工领域手握Google TPU和多家超大规模云厂商的订单，其2026财年第一季AI收入84亿美元，同比增长106%。CEO Hock Tan设定了2027财年AI收入1000亿美元的目标，背后是730亿美元的客户承诺订单，其中包括与谷歌签至2031年的长期TPU供应协议。亚马逊的Trainium外售能否顺利放量，与芯片制造产能的争夺密切相关。

生态之困：比造芯片更难的事

亚马逊造出了性能越来越强的芯片，但有一个问题始终没有解决——软件生态。

英伟达最可怕的护城河，历来不是硬件。过去20年，英伟达积累了数百万开发者、数千个优化的AI框架库、以及一个几乎覆盖了所有AI工作流的CUDA生态。开发者用惯了CUDA，就像用惯了iOS——不是说安卓不好，而是切换成本太高。

亚马逊的Neuron SDK一直在追赶。它支持TensorFlow、PyTorch、MXNet，但兼容性和开发体验与CUDA的差距仍是客观事实。早期版本的编译器对控制流、模型大小、序列长度都有约束。2025年7月的一份亚马逊内部"机密"文档显示，AI初创公司Cohere发现Trainium 1和2的性能"不及"英伟达H100。Stability AI也得出类似结论，认为Trainium 2在延迟方面表现不佳，使其在"速度和成本上竞争力较弱"。新加坡AI研究机构AI Singapore的测试也表明，配备英伟达GPU的AWS G6服务器在多个场景下成本性能优于Inferentia 2。

亚马逊的回应是：这些反馈"并非当前情况"。但承认差距是追赶的第一步。

有趣的是，亚马逊在Trainium4的设计上做了一个出人意料的决定——支持英伟达的NVLink Fusion高速互联技术。这意味着Trainium4可以和英伟达GPU在同一个机架里协同工作。这在外界看来几乎是"与敌人握手"，但从亚马逊的角度看，这是最务实的做法：客户不会一夜之间抛弃CUDA生态，不如让Trainium去做GPU的"好搭档"，先进入客户的服务器机柜，再慢慢证明自己。

一个更大的信号

亚马逊Trainium外售，表面上是产品策略的变化，本质上是一次身份认同的重塑。

过去十年，亚马逊给自己的定位是"卖水人"——AI淘金热里卖铲子和水的那个角色。AWS是水，Trainium是铲子。只要你来AWS挖矿，无论用不用Trainium，亚马逊都能赚钱。

但如果亚马逊开始直接卖芯片，它就从一个"卖水人"变成了"卖铲人"——这是两个截然不同的商业模式。卖水是订阅制，持续收入；卖铲是一锤子买卖，但单笔金额巨大。两者同时运营，等于在同一个AI基础设施市场里覆盖了两个完全不同的客户群体。

更值得关注的是，这可能是云计算行业的一次结构性分水岭。过去二十年，云计算的底层逻辑是"硬件不值钱，服务才值钱"。AWS、Azure、Google Cloud都在拼命把硬件抽象化、服务化。但现在，亚马逊开始说：硬件本身也值钱，而且可以单独卖。

在这个AI基础设施正在被"重资产化"——数据中心、芯片、电力、冷却系统全都成了稀缺资源——的时代，谁拥有最好的硬件，谁就拥有定价权。亚马逊选择同时押注两条路线：既做最深的云，也做最硬的芯。

至于英伟达？黄仁勋依然拥有这个时代最强大的芯片和最大的开发者生态。但亚马逊的转身传递了一个明确的信号：这场AI基础设施的战争，正在从"单极"走向"多极"。Trainium外售不是这场战争的结束，而是新阶段的开始——当所有巨头都开始既做芯片又做云，既卖服务又卖硬件，游戏规则就彻底变了。

变化的不仅仅是一家公司的战略。变化的是整个AI基础设施走向碎片化、多极化、垂直整合化的大趋势。对于每一个AI从业者来说，这意味着两件事：你不用再只盯着英伟达了，但你也得准备好面对一个更加复杂的硬件选择。