文 | 字母AI
Transformer的奠基人,开始参与寻找Transformer之后的下一步。
Google工程副总裁、Gemini模型联合负责人Noam Shazeer在X上宣布,自己将离开Google,加入OpenAI。
![]()
Shazeer是《Attention Is All You Need》的核心作者之一,最早的“Transformer八子”就有他的名字。
从GPT到Claude、从Gemini到几乎所有主流大模型,现代AI的底层结构都绕不开Transformer,而Shazeer正是最早参与定义这套结构的人之一。
2024年,Google曾通过一笔约27亿美元的技术授权与人才回流交易,把Shazeer和部分Character.AI团队重新请回Google,让他参与Gemini模型研发。不到两年后,这位Gemini联合负责人再次离开Google,转身去了OpenAI。
据OpenAI首席研究官Mark Chen发帖,Shazeer将担任OpenAI新的架构研究负责人。
![]()
Sam Altman也发帖表示,从OpenAI创立之初,Noam就是他最想合作的人之一。他等这一天等了十年,但很值得。
![]()
被Google反复追回的人,又离开了Google
Noam Shazeer并不是第一次离开Google,从他的领英账号来看,他的职业生涯几乎一直在和谷歌“拉拉扯扯”。
Shazeer曾在2024年8月播出的Dwarkesh Podcast访谈中说,自己似乎每隔12年就会重新加入一次Google:2000年一次,2012年一次,2024年又一次。
![]()
2000年12月,Shazeer加入Google,成为公司早期的软件工程师。那时的Google还很年轻,他也是最早一批加入公司的工程师之一。
Shazeer最早参与的重要项目之一,是改进Google搜索的拼写纠错系统。但他感兴趣的不只是搜索——还有AI。
他在播客里说,自己当年加入Google,有一个很朴素的想法:先赚一些钱,以后就可以长期做AI研究。
2009年,Shazeer曾短暂离开Google。公开资料并没有详细说明这次离开的原因。后来他在播客中回忆,几年后自己回Google和妻子吃午饭,碰巧坐到了Jeff Dean和早期Google Brain团队旁边,被那群人重新吸引。
2012 年,Shazeer重新加入Google。那一年,Google Brain正处在早期阶段,Jeff Dean等人正在把深度学习从研究项目推进到Google内部更核心的位置。这次回归也让Shazeer从早期搜索工程体系,转向Google的AI主航道。
几年后,Shazeer的名字开始真正进入现代AI史。
2017年,他和Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin等人共同发表《Attention Is All You Need》,提出了Transformer架构。
![]()
后来发生的事情,已经不需要太多解释。几乎所有主流大模型,底层结构都绕不开Transformer。
Transformer之外,Shazeer很早就参与推动稀疏MoE,也就是混合专家模型——这条路线的核心思想是,不让每次计算都激活整个模型,而是根据不同输入调用不同“专家”模块,从而在扩大模型容量的同时控制计算成本。
后来,MoE成为大模型扩展和效率优化的重要方向。
2021年,Shazeer和Google同事Daniel De Freitas离开公司,创办Character.AI。据传,这件事的导火索是Google拒绝公开发布他们参与开发的一款聊天机器人。
![]()
那款产品最初名为Meena,目标是让AI能围绕广泛话题展开自然对话。
据《华尔街日报》报道,Shazeer曾在一份内部备忘录《Meena Eats the World》中预测,这类聊天机器人有可能取代Google搜索,并创造数万亿美元收入。
但Google没有选择发布它,高管给出的理由包括安全性和公平性风险。对Google来说这或许是谨慎,但对Shazeer这样的人来说,更像是一个巨大机会被放下——而机会被放下,往往意味着被错过。所以Shazeer离开了。
一年后,OpenAI用另一种方式证明了Shazeer的判断。2022年11月,ChatGPT让全世界意识到,聊天机器人可能成为普通人接触AI的第一入口。
Character.AI也在这股浪潮中快速起势。
2023年3月,Character.AI完成1.5亿美元融资,估值达到10亿美元。它主打各种可对话的AI角色,用户可以和实用助手、虚构人物甚至名人形象聊天。
![]()
当年没有放行Meena的Google,最后又不得不把Shazeer请回来。
2024年,Google与Character.AI达成一笔特殊交易:Google获得Character.AI的部分技术授权,同时把Shazeer、Daniel De Freitas以及部分研究团队带回Google DeepMind。
为了拿到技术和人,Google付出的代价高达约27亿美元。
据《华尔街日报》报道,Shazeer也因为持有Character.AI股份,在这笔交易中获得了数亿美元收益。
换句话说,Google当年拒绝发布的聊天机器人路线,最后以另一种昂贵的方式回到了Google。
回归后,Shazeer加入Gemini核心领导层,参与Google最重要的大模型研发。他的头衔变成了Google工程副总裁、Gemini模型联合负责人。
不到两年后,剧情又迎来转折——Shazeer又一次离开Google。这一次,他去的是做出ChatGPT的OpenAI。
细想来,他的故事多少像是一段关于chatbot的孽缘。
Transformer之后,下一个改变时代的架构
据OpenAI首席研究官Mark Chen的说法,Shazeer将担任OpenAI新的架构研究负责人。
过去几年,大模型行业最熟悉的叙事是scaling law:更多数据、更大模型、更多算力、更长上下文,带来更强能力。
但从2024年开始,越来越多迹象表明,单纯扩大预训练规模的边际收益正在下降。
Ilya Sutskever曾公开表示,预训练作为过去几年最重要的scaling配方,正在接近数据和方法上的边界;如果只是把规模再放大100倍,并不会自动带来下一次GPT-3到GPT-4式的跨越。
另一方面,Transformer本身的短板也开始暴露出来。
前些年,大家还会把问题理解成“模型还不够大”或者“上下文还不够长”,但现在越来越多研究显示,很多能力瓶颈并不只是规模问题,而是架构问题。
比如,长上下文不等于真正记忆。模型可以在几十万甚至上百万token的上下文里检索信息,但这不代表它真的维护了一个稳定的内部状态。它能回看过去,不等于它清楚当下的情况。
再比如,思维链不等于真正推理。Chain-of-Thought、reasoning model、test-time compute的流行,说明模型确实需要更多中间计算。但如果每一点状态变化、每一个简单推理,都要靠显式文字写出来,再重新喂回模型,本质上是一种非常昂贵的补丁。
Google DeepMind前段时间发的论文《The Topological Trouble With Transformers》(Transformer的拓扑困境),讨论的就是上述问题。
![]()
论文指出,纯前馈Transformer在动态状态追踪上存在结构性短板。Transformer很擅长回看上下文,却不天然擅长维护一个持续变化的内部状态。
论文举了几个直观的例子:模型可以在上下文里看到前面的对话,却仍然在多轮交互里出现前后不一致;它可以看到关于“bank”的上下文,却在后续问题里从把这个词从“河岸”理解成“银行”;它也可能在猜数字游戏里给出互相矛盾的反馈。
如果一个模型只是把过去全部放进窗口里,再通过注意力机制去查找,它更像是在翻一本很长的笔记,而不是持续拥有一个会更新的记忆。
说起来,这背后甚至带有一点认知科学和哲学意味。以人类本身为例,人的记忆和想象力共享一个高度重叠的核心神经网络——记忆并不是把过去完整存档,然后在需要时原样调取。很多时候,记忆更像是一种回溯性的重建:大脑在当下重新组织线索、补全语境,并把过去、想象和判断混合成一个可以行动的状态。
真正的智能,尤其是长程推理、多轮对话、规划、代码代理和复杂任务执行,需要的不止是回顾过去,还要理解当下实在的状态。
当然,Transformer毕竟是很久之前的底层架构,这篇说的“短板”其实更像是放在现在的评价框架里去看过去的一个架构。
但也恰恰说明,Transformer未必一定适合我们当下对于智能的需求。
现在围绕Transformer的改造已经层出不穷:MoE试图解决参数规模和计算成本之间的矛盾;高效解码试图降低推理成本;长上下文试图扩展模型的记忆边界;state-space model、递归结构、latent reasoning、test-time compute,则试图补上状态追踪、长期一致性和动态推理的短板。
AI行业渐渐形成了一个新的共识——下一代模型不能只是更大的Transformer,它必须更会组织计算、更会维护状态、更会在推理过程中更新自己对世界的表示。
于是,架构问题又被翻了出来。
Shazeer加入OpenAI的象征意义就在于此,架构研究负责人这个岗位指向的,正是前沿模型竞争最底层的问题。
这让Shazeer的跳槽不再是“Transformer之父去OpenAI继续加强Transformer”的故事,更像是一个参与定义Transformer时代的人,开始参与寻找Transformer之后的下一步。
机会成本、人才战争和下一代模型
对Google来说,Shazeer的离开当然是损失——这个损失并不只是少了一位Gemini联合负责人,还指向Google AI史里那个反复出现的问题:它常常很早看到未来,却未必能最快把未来推到用户面前。
Shazeer在播客中回忆,Larry Page以前常说,Google第二大的成本是税,最大的成本是机会成本。(以防万一,Shazeer还补了一句:如果Page没说过,那自己已经误引他很多年了。)
Google拥有世界上最强的研究人员、最完整的工程体系、最先进的TPU和数据中心、以及足够庞大的产品入口。但越是这样的大公司,越要在安全、公平、组织边界和产品化风险之间反复权衡。
在AI这样一个窗口期极短的行业里,谨慎本身可能是必要的,但谨慎也可能变成昂贵的延迟、机会的流失。
而对OpenAI来说,Shazeer的加入,意义非常重大——就连Sam Altman都表示“从OpenAI创立之初,Noam就是他最想合作的人之一”。
OpenAI得到的是一组极其稀缺的经验集合:Transformer、MoE、大规模训练、高效解码、对话模型、基础模型工程,以及在Google这种超大规模系统里多年打磨出来的架构直觉。
大模型架构研究并不是提出一个漂亮想法就结束了。Shazeer在播客里说过,小规模研究最理想的状态,是早上醒来想到一个主意,当天写出来,跑一些实验,很快看到初步结果。
而前沿模型研发真正困难的地方,恰恰在于从“小实验”走向“大系统”。一个改进在小模型上看起来有效,放大到最大规模训练时未必还能成立;几个单独有效的技巧放在一起,也未必能协同工作。
到了最大规模训练,很多实验几乎无法真正加速。最后仍然是N=1的实验:一群最聪明的人坐在房间里,盯着训练结果,判断到底是哪一部分起了作用,哪一部分拖了后腿。
OpenAI现在需要的,不只是更多GPU、或者再训练一个更大的模型。它需要更底层的架构判断:把有潜力的结构放大到真实训练系统里,把效率提升转化为成本优势,并用新的架构变化打开下一代能力。
Shazeer最可贵的地方就在于判断能力。
与此同时,OpenAI正在面对十分沉重的财务压力。
Financial Times报道称,OpenAI 2025年支出达到约340亿美元,净亏损约390亿美元;另有泄露财务文件口径显示,归属于OpenAI的净亏损约为385亿美元。
这里面包含不少复杂的会计和非现金项目,但方向很清楚:前沿模型竞争正在变成一场极其昂贵的战争。
OpenAI的紧迫感,部分也来自它最直接的对手Anthropic。
今年6月,Anthropic和OpenAI先后提交IPO文件,两家公司几乎在同一时间把自己推向公开市场。
在这个节点上,Anthropic一直在补强核心人才。今年4月,Anthropic请来前Microsoft Azure AI高管Eric Boyd担任基础设施负责人,负责支撑Claude继续扩张所需的底层系统。5月,Anthropic还拉来了OpenAI联合创始人Andrej Karpathy,让他加入Claude的预训练团队,并组建一个用Claude加速预训练研究的小组。
于是,OpenAI也在人才上抓紧补强:Shazeer负责架构研究,Clint Gibler加入OpenAI Cyber团队,分别指向模型底层能力和安全能力。
这场人才战背后,争夺的是谁能更快找到下一代模型的训练方式、推理方式和组织计算的方式。OpenAI如果要在上市前继续证明自己的领先性,就必须证明自己有能力把模型做得更强、更稳定、更便宜。
而现在,OpenAI把这个问题交给了曾经一位参与定义Transformer的人。







快报
根据《网络安全法》实名制要求,请绑定手机号后发表评论