Transformer之父再叛逃:诺姆·沙泽尔从谷歌转投OpenAI

2026.06.18 08:23
36氪援引多方信源报道,谷歌DeepMind Gemini联席负责人、Transformer架构核心发明人诺姆·沙泽尔(Noam Shazeer)将加入OpenAI。作为2017年"Attention Is All You Need"论文作者和Character.AI联合创始人,沙泽尔的跳槽标志着AI人才暗战进入终局——在预训练Scaling Law边际收益递减的节点上,拥有从底层系统到顶层架构全栈经验的人,正在取代GPU数量成为最稀缺的行业资源。

Transformer之父再叛逃:诺姆·沙泽尔从谷歌转投OpenAI,AI人才暗战进入终局

两个月前,OpenAI联合创始人Andrej Karpathy宣布加入Anthropic。两个月后,谷歌DeepMind的Gemini联席负责人、Transformer架构的核心发明人诺姆·沙泽尔(Noam Shazeer),将加入OpenAI。

36氪援引多方信源报道了这则消息。若最终确认,这将是2026年AI行业最具标志性的人才流动——没有之一。

诺姆·沙泽尔不是普通的AI研究员。他是2017年那篇改变了整个AI格局的论文——"Attention Is All You Need"——的八位作者之一,亲手设计了多头注意力机制(Multi-Head Attention)和残差架构,并写下了第一个超越当时SOTA的Transformer实现代码。他是2016年稀疏门控混合专家模型(Sparsely-Gated MoE)的发明者。他是2018年Mesh-Tensorflow的创建者——这套分布式训练框架让超大Transformer模型的训练第一次成为工程现实。他是谷歌LaMDA对话系统的主要贡献者。他还是Character.AI的联合创始人——ChatGPT之前第一个基于Transformer的聊天机器人。

这位AI领域的"活化石"级人物,正在第三次改变自己的人生轨迹。

从谷歌到OpenAI:一条"不归路"

理解诺姆·沙泽尔加入OpenAI的意义,需要先看清他走过的路。

2000年,沙泽尔加入谷歌,一待就是21年。在谷歌期间,他改进了搜索引擎的拼写纠错器,写下了后来成为Google AdSense核心的PHIL算法。然后在2017年,他与其他七位谷歌研究员共同发表了"Attention Is All You Need"——迄今被引用超过15万次,催生了整个生成式AI产业。

这篇论文的八位作者,如今没有一位留在谷歌。Ashish Vaswani和Niki Parmar联合创办了Adept AI;Llion Jones在日本创立了Sakana AI;Lukasz Kaiser此前就已加入OpenAI;Aidan Gomez创办了估值超50亿美元的Cohere;Illia Polosukhin创立了NEAR Protocol;Jakob Uszkoreit也早已离开。而沙泽尔在2021年与Daniel De Freitas一起离开谷歌,创办了Character.AI——出走的原因,是谷歌当时拒绝了他们推出聊天机器人的提议。

2024年8月,事情出现了戏剧性转折。Character.AI的两位联合创始人带着部分研究团队回到了谷歌。谷歌以25亿美元的估值获得了Character.AI技术的非独家许可,并买断了早期投资者的股份。沙泽尔本人则成为谷歌DeepMind的VP Engineering和Gemini项目的联席负责人。

那一次回归,曾被外界解读为"Transformer之父回家"。彼时距离他创办Character.AI不过三年。而如今,仅仅不到两年之后,他将再次离开。

这一次的去向,是OpenAI——那个在Transformer架构上生长出来、如今正在冲击IPO的AI巨头。

三重含义:为什么这次流动比任何一次都重要

第一重:Transformer的血缘回归

OpenAI的崛起,从技术根源上讲,是建立在谷歌2017年那篇论文之上的。GPT系列的核心架构就是Transformer。沙泽尔的加入,意味着Transformer的"基因"以物理肉身的形式回到了它所催生的最成功的产品线上。

但这个故事的另一面,远没有这么温情。

沙泽尔在谷歌DeepMind的角色是Gemini联席负责人——那是谷歌倾注了最多资源、正面迎战OpenAI ChatGPT的核心项目。当Gemini的联创人之一转身加入直接竞争对手,这对谷歌内部的技术路线和团队士气的打击是双重的。

而OpenAI获得的,不只是一个有光环的明星研究员。沙泽尔是极少数从搜索引擎底层算法做到大模型顶层架构的"全栈"AI专家——他做过广告系统(AdSense的PHIL算法),写过分布式训练框架(Mesh-Tensorflow),亲手实现了Transformer的第一套超越SOTA的代码,还从零构建了一家头部AI公司(Character.AI)。这种从系统到算法到商业化的端到端认知,在整个行业里不超过十个人。

第二重:大模型领域的"三体运动"加速

2026年5月,OpenAI联合创始人Andrej Karpathy加入Anthropic的预训练团队。2026年6月,沙泽尔从谷歌DeepMind加入OpenAI。五大AI实验室——OpenAI、Anthropic、Google DeepMind、Meta、xAI——之间的顶级研究人员,正在形成前所未有的多向流动。

如果把时间线再拉长:2024年,Meta以超过1亿美元的年薪从OpenAI挖走多名核心研究员,组建超级智能团队。2025年夏天,Meta CEO扎克伯格为从OpenAI和Anthropic挖人开出了800万至2000万美元的年薪包,引发硅谷的"FOMO之夏"——据Business Insider报道,多名知情人士证实了这一消息。2026年初,前OpenAI CTO Mira Murati创办的Thinking Machines Lab遭遇创始团队成员回流OpenAI。然后到了2026年的5月和6月,Karpathy和沙泽尔相继完成跨实验室的"大迁徙"。

在一个全球顶级AI人才极度稀缺的行业里,现在发生的已经不是"挖角",而是"洗牌"。每一次关键人物的流动,都可能改变下一代模型的技术路线走向。

这场人才暗战的底层逻辑并不复杂:当Scaling Law在预训练阶段开始触及边际收益递减的拐点,当后训练(Post-Training)和推理时计算(Test-time Compute)成为新的军备竞赛方向,拥有"从0到1搭建超大模型训练系统"经验的人,就是整个行业最稀缺的资源。而沙泽尔——一个在2000年就入行、2016年做出了MoE、2017年写了Transformer代码、2018年构建了分布式训练框架、2021年又打造了Character.AI的人——恰好是这种资源中最顶级的代表。

第三重:OpenAI的技术叙事正在发生微妙转向

沙泽尔的专长领域很说明问题:稀疏门控MoE、Transformer底层架构优化、大规模分布式训练系统。这些能力在OpenAI当前的技术路线图上,价值远大于一两年前。

据Fortune 2026年6月16日报道,OpenAI的审计财务数据遭到泄露——2025财年营收130.7亿美元,相比2024年的37亿美元增长超过250%;但运营亏损从2024年的87.8亿美元扩大至209.2亿美元。仅研发费用一项就高达191.8亿美元。据The Information 2026年6月17日补充报道,OpenAI在2026年第一季度烧掉了37亿美元,同期营收为57亿美元。

一天超过5700万美元的运营亏损,让OpenAI迫切需要找到比"堆算力"更高效的技术路径。而沙泽尔在2016年就发表的稀疏门控MoE架构,正是从模型架构层面降低计算成本的关键技术——让大模型不再是每个Token都激活全部参数,而是"按需调用专家子网络"。这可能是OpenAI在下一代模型中控制推理成本的核心技术储备。

与此同时,GPT-5.5 Cyber的一个安全变体版本已在2026年5月以有限预览形式向经过审查的网络安全团队推出。这表明OpenAI的技术路线正从单一的大语言模型向专业化、安全化方向分化。沙泽尔在谷歌二十多年积累的"系统工程+搜索+广告基础设施"的综合经验,对这种多线并行的技术路线具有独特的适配性。

谁赢?谁输?谁危险?

这笔人才交易的赢家,远不止OpenAI一方。

赢家一:OpenAI。获得Transformer创始人的直接加盟,技术叙事和人才吸引力双重提升。在Karpathy离开后,OpenAI亟需补充顶级技术声量——沙泽尔不仅完美填补了这个空缺,甚至带来了比Karpathy更具历史纵深的技术声誉。

赢家二:整个AI人才市场。每一次头部研究员的转会,都伴随着薪酬天花板的再突破。据Business Insider报道,Meta为挖角顶级AI人才开出了800万至2000万美元的年薪包。沙泽尔这一级别的加入,很可能将OpenAI乃至整个行业的顶级研究员薪酬基准再推上一个新台阶。

输家:谷歌DeepMind。损失Gemini联席负责人在技术路线和组织层面的打击都是沉重的。更令人担忧的是信号效应——当Transformer之父都选择离开谷歌加入OpenAI,谷歌内部那些同样顶级的AI研究员会怎么想?

潜在变数:Character.AI。沙泽尔2024年与谷歌达成的协议包括非独家技术许可和早期投资者退出安排。如今他再次离开谷歌,Character.AI与谷歌的合作关系是否会受到影响、沙泽尔在Character.AI的创始人角色是否会有新的变化,是值得持续关注的方向。

AI权力结构的深度重组

沙泽尔转会OpenAI,表面上看是一个人的职业选择,但它折射出更深层的行业趋势:AI的核心竞争力正在从"拥有最多GPU"向"拥有最懂怎么用GPU的人"转移。

当预训练阶段的边际收益持续递减,推理效率、模型架构创新和系统优化能力将成为下一代大模型的分水岭。而沙泽尔——从2000年开始做搜索引擎、2017年发明了Transformer、2021年创办Character.AI、2024年回归谷歌、2026年加入OpenAI——他每一次关键选择的时机,都精准踩在了AI发展史的转折节点上。这一次,大概率也不会例外。

毕竟,在这个靠人才定义上限的行业里,最稀缺的从来不是算力,而是知道算力该怎么花的人。

作品声明:内容由AI生成