Transformer之父再叛逃：诺姆·沙泽尔从谷歌转投OpenAI

36氪援引多方信源报道，谷歌DeepMind Gemini联席负责人、Transformer架构核心发明人诺姆·沙泽尔（Noam Shazeer）将加入OpenAI。作为2017年"Attention Is All You Need"论文作者和Character.AI联合创始人，沙泽尔的跳槽标志着AI人才暗战进入终局——在预训练Scaling Law边际收益递减的节点上，拥有从底层系统到顶层架构全栈经验的人，正在取代GPU数量成为最稀缺的行业资源。

Transformer之父再叛逃：诺姆·沙泽尔从谷歌转投OpenAI，AI人才暗战进入终局

两个月前，OpenAI联合创始人Andrej Karpathy宣布加入Anthropic。两个月后，谷歌DeepMind的Gemini联席负责人、Transformer架构的核心发明人诺姆·沙泽尔（Noam Shazeer），将加入OpenAI。

36氪援引多方信源报道了这则消息。若最终确认，这将是2026年AI行业最具标志性的人才流动——没有之一。

诺姆·沙泽尔不是普通的AI研究员。他是2017年那篇改变了整个AI格局的论文——"Attention Is All You Need"——的八位作者之一，亲手设计了多头注意力机制（Multi-Head Attention）和残差架构，并写下了第一个超越当时SOTA的Transformer实现代码。他是2016年稀疏门控混合专家模型（Sparsely-Gated MoE）的发明者。他是2018年Mesh-Tensorflow的创建者——这套分布式训练框架让超大Transformer模型的训练第一次成为工程现实。他是谷歌LaMDA对话系统的主要贡献者。他还是Character.AI的联合创始人——ChatGPT之前第一个基于Transformer的聊天机器人。

这位AI领域的"活化石"级人物，正在第三次改变自己的人生轨迹。

从谷歌到OpenAI：一条"不归路"

理解诺姆·沙泽尔加入OpenAI的意义，需要先看清他走过的路。

2000年，沙泽尔加入谷歌，一待就是21年。在谷歌期间，他改进了搜索引擎的拼写纠错器，写下了后来成为Google AdSense核心的PHIL算法。然后在2017年，他与其他七位谷歌研究员共同发表了"Attention Is All You Need"——迄今被引用超过15万次，催生了整个生成式AI产业。

这篇论文的八位作者，如今没有一位留在谷歌。Ashish Vaswani和Niki Parmar联合创办了Adept AI；Llion Jones在日本创立了Sakana AI；Lukasz Kaiser此前就已加入OpenAI；Aidan Gomez创办了估值超50亿美元的Cohere；Illia Polosukhin创立了NEAR Protocol；Jakob Uszkoreit也早已离开。而沙泽尔在2021年与Daniel De Freitas一起离开谷歌，创办了Character.AI——出走的原因，是谷歌当时拒绝了他们推出聊天机器人的提议。

2024年8月，事情出现了戏剧性转折。Character.AI的两位联合创始人带着部分研究团队回到了谷歌。谷歌以25亿美元的估值获得了Character.AI技术的非独家许可，并买断了早期投资者的股份。沙泽尔本人则成为谷歌DeepMind的VP Engineering和Gemini项目的联席负责人。

那一次回归，曾被外界解读为"Transformer之父回家"。彼时距离他创办Character.AI不过三年。而如今，仅仅不到两年之后，他将再次离开。

这一次的去向，是OpenAI——那个在Transformer架构上生长出来、如今正在冲击IPO的AI巨头。

三重含义：为什么这次流动比任何一次都重要

第一重：Transformer的血缘回归

OpenAI的崛起，从技术根源上讲，是建立在谷歌2017年那篇论文之上的。GPT系列的核心架构就是Transformer。沙泽尔的加入，意味着Transformer的"基因"以物理肉身的形式回到了它所催生的最成功的产品线上。

但这个故事的另一面，远没有这么温情。

沙泽尔在谷歌DeepMind的角色是Gemini联席负责人——那是谷歌倾注了最多资源、正面迎战OpenAI ChatGPT的核心项目。当Gemini的联创人之一转身加入直接竞争对手，这对谷歌内部的技术路线和团队士气的打击是双重的。

而OpenAI获得的，不只是一个有光环的明星研究员。沙泽尔是极少数从搜索引擎底层算法做到大模型顶层架构的"全栈"AI专家——他做过广告系统（AdSense的PHIL算法），写过分布式训练框架（Mesh-Tensorflow），亲手实现了Transformer的第一套超越SOTA的代码，还从零构建了一家头部AI公司（Character.AI）。这种从系统到算法到商业化的端到端认知，在整个行业里不超过十个人。

第二重：大模型领域的"三体运动"加速

2026年5月，OpenAI联合创始人Andrej Karpathy加入Anthropic的预训练团队。2026年6月，沙泽尔从谷歌DeepMind加入OpenAI。五大AI实验室——OpenAI、Anthropic、Google DeepMind、Meta、xAI——之间的顶级研究人员，正在形成前所未有的多向流动。

如果把时间线再拉长：2024年，Meta以超过1亿美元的年薪从OpenAI挖走多名核心研究员，组建超级智能团队。2025年夏天，Meta CEO扎克伯格为从OpenAI和Anthropic挖人开出了800万至2000万美元的年薪包，引发硅谷的"FOMO之夏"——据Business Insider报道，多名知情人士证实了这一消息。2026年初，前OpenAI CTO Mira Murati创办的Thinking Machines Lab遭遇创始团队成员回流OpenAI。然后到了2026年的5月和6月，Karpathy和沙泽尔相继完成跨实验室的"大迁徙"。

在一个全球顶级AI人才极度稀缺的行业里，现在发生的已经不是"挖角"，而是"洗牌"。每一次关键人物的流动，都可能改变下一代模型的技术路线走向。

这场人才暗战的底层逻辑并不复杂：当Scaling Law在预训练阶段开始触及边际收益递减的拐点，当后训练（Post-Training）和推理时计算（Test-time Compute）成为新的军备竞赛方向，拥有"从0到1搭建超大模型训练系统"经验的人，就是整个行业最稀缺的资源。而沙泽尔——一个在2000年就入行、2016年做出了MoE、2017年写了Transformer代码、2018年构建了分布式训练框架、2021年又打造了Character.AI的人——恰好是这种资源中最顶级的代表。

第三重：OpenAI的技术叙事正在发生微妙转向

沙泽尔的专长领域很说明问题：稀疏门控MoE、Transformer底层架构优化、大规模分布式训练系统。这些能力在OpenAI当前的技术路线图上，价值远大于一两年前。

据Fortune 2026年6月16日报道，OpenAI的审计财务数据遭到泄露——2025财年营收130.7亿美元，相比2024年的37亿美元增长超过250%；但运营亏损从2024年的87.8亿美元扩大至209.2亿美元。仅研发费用一项就高达191.8亿美元。据The Information 2026年6月17日补充报道，OpenAI在2026年第一季度烧掉了37亿美元，同期营收为57亿美元。

一天超过5700万美元的运营亏损，让OpenAI迫切需要找到比"堆算力"更高效的技术路径。而沙泽尔在2016年就发表的稀疏门控MoE架构，正是从模型架构层面降低计算成本的关键技术——让大模型不再是每个Token都激活全部参数，而是"按需调用专家子网络"。这可能是OpenAI在下一代模型中控制推理成本的核心技术储备。

与此同时，GPT-5.5 Cyber的一个安全变体版本已在2026年5月以有限预览形式向经过审查的网络安全团队推出。这表明OpenAI的技术路线正从单一的大语言模型向专业化、安全化方向分化。沙泽尔在谷歌二十多年积累的"系统工程+搜索+广告基础设施"的综合经验，对这种多线并行的技术路线具有独特的适配性。

谁赢？谁输？谁危险？

这笔人才交易的赢家，远不止OpenAI一方。

赢家一：OpenAI。获得Transformer创始人的直接加盟，技术叙事和人才吸引力双重提升。在Karpathy离开后，OpenAI亟需补充顶级技术声量——沙泽尔不仅完美填补了这个空缺，甚至带来了比Karpathy更具历史纵深的技术声誉。

赢家二：整个AI人才市场。每一次头部研究员的转会，都伴随着薪酬天花板的再突破。据Business Insider报道，Meta为挖角顶级AI人才开出了800万至2000万美元的年薪包。沙泽尔这一级别的加入，很可能将OpenAI乃至整个行业的顶级研究员薪酬基准再推上一个新台阶。

输家：谷歌DeepMind。损失Gemini联席负责人在技术路线和组织层面的打击都是沉重的。更令人担忧的是信号效应——当Transformer之父都选择离开谷歌加入OpenAI，谷歌内部那些同样顶级的AI研究员会怎么想？

潜在变数：Character.AI。沙泽尔2024年与谷歌达成的协议包括非独家技术许可和早期投资者退出安排。如今他再次离开谷歌，Character.AI与谷歌的合作关系是否会受到影响、沙泽尔在Character.AI的创始人角色是否会有新的变化，是值得持续关注的方向。

AI权力结构的深度重组

沙泽尔转会OpenAI，表面上看是一个人的职业选择，但它折射出更深层的行业趋势：AI的核心竞争力正在从"拥有最多GPU"向"拥有最懂怎么用GPU的人"转移。

当预训练阶段的边际收益持续递减，推理效率、模型架构创新和系统优化能力将成为下一代大模型的分水岭。而沙泽尔——从2000年开始做搜索引擎、2017年发明了Transformer、2021年创办Character.AI、2024年回归谷歌、2026年加入OpenAI——他每一次关键选择的时机，都精准踩在了AI发展史的转折节点上。这一次，大概率也不会例外。

毕竟，在这个靠人才定义上限的行业里，最稀缺的从来不是算力，而是知道算力该怎么花的人。