Transformer之父离开谷歌，奥特曼等了他十年-钛媒体官方网站

文 | 字母AI

Transformer的奠基人，开始参与寻找Transformer之后的下一步。

Google工程副总裁、Gemini模型联合负责人Noam Shazeer在X上宣布，自己将离开Google，加入OpenAI。

Shazeer是《Attention Is All You Need》的核心作者之一，最早的“Transformer八子”就有他的名字。

从GPT到Claude、从Gemini到几乎所有主流大模型，现代AI的底层结构都绕不开Transformer，而Shazeer正是最早参与定义这套结构的人之一。

2024年，Google曾通过一笔约27亿美元的技术授权与人才回流交易，把Shazeer和部分Character.AI团队重新请回Google，让他参与Gemini模型研发。不到两年后，这位Gemini联合负责人再次离开Google，转身去了OpenAI。

据OpenAI首席研究官Mark Chen发帖，Shazeer将担任OpenAI新的架构研究负责人。

Sam Altman也发帖表示，从OpenAI创立之初，Noam就是他最想合作的人之一。他等这一天等了十年，但很值得。

被Google反复追回的人，又离开了Google

Noam Shazeer并不是第一次离开Google，从他的领英账号来看，他的职业生涯几乎一直在和谷歌“拉拉扯扯”。

Shazeer曾在2024年8月播出的Dwarkesh Podcast访谈中说，自己似乎每隔12年就会重新加入一次Google：2000年一次，2012年一次，2024年又一次。

2000年12月，Shazeer加入Google，成为公司早期的软件工程师。那时的Google还很年轻，他也是最早一批加入公司的工程师之一。

Shazeer最早参与的重要项目之一，是改进Google搜索的拼写纠错系统。但他感兴趣的不只是搜索——还有AI。

他在播客里说，自己当年加入Google，有一个很朴素的想法：先赚一些钱，以后就可以长期做AI研究。

2009年，Shazeer曾短暂离开Google。公开资料并没有详细说明这次离开的原因。后来他在播客中回忆，几年后自己回Google和妻子吃午饭，碰巧坐到了Jeff Dean和早期Google Brain团队旁边，被那群人重新吸引。

2012 年，Shazeer重新加入Google。那一年，Google Brain正处在早期阶段，Jeff Dean等人正在把深度学习从研究项目推进到Google内部更核心的位置。这次回归也让Shazeer从早期搜索工程体系，转向Google的AI主航道。

几年后，Shazeer的名字开始真正进入现代AI史。

2017年，他和Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan Gomez、Lukasz Kaiser、Illia Polosukhin等人共同发表《Attention Is All You Need》，提出了Transformer架构。

后来发生的事情，已经不需要太多解释。几乎所有主流大模型，底层结构都绕不开Transformer。

Transformer之外，Shazeer很早就参与推动稀疏MoE，也就是混合专家模型——这条路线的核心思想是，不让每次计算都激活整个模型，而是根据不同输入调用不同“专家”模块，从而在扩大模型容量的同时控制计算成本。

后来，MoE成为大模型扩展和效率优化的重要方向。

2021年，Shazeer和Google同事Daniel De Freitas离开公司，创办Character.AI。据传，这件事的导火索是Google拒绝公开发布他们参与开发的一款聊天机器人。

那款产品最初名为Meena，目标是让AI能围绕广泛话题展开自然对话。

据《华尔街日报》报道，Shazeer曾在一份内部备忘录《Meena Eats the World》中预测，这类聊天机器人有可能取代Google搜索，并创造数万亿美元收入。

但Google没有选择发布它，高管给出的理由包括安全性和公平性风险。对Google来说这或许是谨慎，但对Shazeer这样的人来说，更像是一个巨大机会被放下——而机会被放下，往往意味着被错过。所以Shazeer离开了。

一年后，OpenAI用另一种方式证明了Shazeer的判断。2022年11月，ChatGPT让全世界意识到，聊天机器人可能成为普通人接触AI的第一入口。

Character.AI也在这股浪潮中快速起势。

2023年3月，Character.AI完成1.5亿美元融资，估值达到10亿美元。它主打各种可对话的AI角色，用户可以和实用助手、虚构人物甚至名人形象聊天。

当年没有放行Meena的Google，最后又不得不把Shazeer请回来。

2024年，Google与Character.AI达成一笔特殊交易：Google获得Character.AI的部分技术授权，同时把Shazeer、Daniel De Freitas以及部分研究团队带回Google DeepMind。

为了拿到技术和人，Google付出的代价高达约27亿美元。

据《华尔街日报》报道，Shazeer也因为持有Character.AI股份，在这笔交易中获得了数亿美元收益。

换句话说，Google当年拒绝发布的聊天机器人路线，最后以另一种昂贵的方式回到了Google。

回归后，Shazeer加入Gemini核心领导层，参与Google最重要的大模型研发。他的头衔变成了Google工程副总裁、Gemini模型联合负责人。

不到两年后，剧情又迎来转折——Shazeer又一次离开Google。这一次，他去的是做出ChatGPT的OpenAI。

细想来，他的故事多少像是一段关于chatbot的孽缘。

Transformer之后，下一个改变时代的架构

据OpenAI首席研究官Mark Chen的说法，Shazeer将担任OpenAI新的架构研究负责人。

过去几年，大模型行业最熟悉的叙事是scaling law：更多数据、更大模型、更多算力、更长上下文，带来更强能力。

但从2024年开始，越来越多迹象表明，单纯扩大预训练规模的边际收益正在下降。

Ilya Sutskever曾公开表示，预训练作为过去几年最重要的scaling配方，正在接近数据和方法上的边界；如果只是把规模再放大100倍，并不会自动带来下一次GPT-3到GPT-4式的跨越。

另一方面，Transformer本身的短板也开始暴露出来。

前些年，大家还会把问题理解成“模型还不够大”或者“上下文还不够长”，但现在越来越多研究显示，很多能力瓶颈并不只是规模问题，而是架构问题。

比如，长上下文不等于真正记忆。模型可以在几十万甚至上百万token的上下文里检索信息，但这不代表它真的维护了一个稳定的内部状态。它能回看过去，不等于它清楚当下的情况。

再比如，思维链不等于真正推理。Chain-of-Thought、reasoning model、test-time compute的流行，说明模型确实需要更多中间计算。但如果每一点状态变化、每一个简单推理，都要靠显式文字写出来，再重新喂回模型，本质上是一种非常昂贵的补丁。

Google DeepMind前段时间发的论文《The Topological Trouble With Transformers》（Transformer的拓扑困境），讨论的就是上述问题。

论文指出，纯前馈Transformer在动态状态追踪上存在结构性短板。Transformer很擅长回看上下文，却不天然擅长维护一个持续变化的内部状态。

论文举了几个直观的例子：模型可以在上下文里看到前面的对话，却仍然在多轮交互里出现前后不一致；它可以看到关于“bank”的上下文，却在后续问题里从把这个词从“河岸”理解成“银行”；它也可能在猜数字游戏里给出互相矛盾的反馈。

如果一个模型只是把过去全部放进窗口里，再通过注意力机制去查找，它更像是在翻一本很长的笔记，而不是持续拥有一个会更新的记忆。

说起来，这背后甚至带有一点认知科学和哲学意味。以人类本身为例，人的记忆和想象力共享一个高度重叠的核心神经网络——记忆并不是把过去完整存档，然后在需要时原样调取。很多时候，记忆更像是一种回溯性的重建：大脑在当下重新组织线索、补全语境，并把过去、想象和判断混合成一个可以行动的状态。

真正的智能，尤其是长程推理、多轮对话、规划、代码代理和复杂任务执行，需要的不止是回顾过去，还要理解当下实在的状态。

当然，Transformer毕竟是很久之前的底层架构，这篇说的“短板”其实更像是放在现在的评价框架里去看过去的一个架构。

但也恰恰说明，Transformer未必一定适合我们当下对于智能的需求。

现在围绕Transformer的改造已经层出不穷：MoE试图解决参数规模和计算成本之间的矛盾；高效解码试图降低推理成本；长上下文试图扩展模型的记忆边界；state-space model、递归结构、latent reasoning、test-time compute，则试图补上状态追踪、长期一致性和动态推理的短板。

AI行业渐渐形成了一个新的共识——下一代模型不能只是更大的Transformer，它必须更会组织计算、更会维护状态、更会在推理过程中更新自己对世界的表示。

于是，架构问题又被翻了出来。

Shazeer加入OpenAI的象征意义就在于此，架构研究负责人这个岗位指向的，正是前沿模型竞争最底层的问题。

这让Shazeer的跳槽不再是“Transformer之父去OpenAI继续加强Transformer”的故事，更像是一个参与定义Transformer时代的人，开始参与寻找Transformer之后的下一步。

机会成本、人才战争和下一代模型

对Google来说，Shazeer的离开当然是损失——这个损失并不只是少了一位Gemini联合负责人，还指向Google AI史里那个反复出现的问题：它常常很早看到未来，却未必能最快把未来推到用户面前。

Shazeer在播客中回忆，Larry Page以前常说，Google第二大的成本是税，最大的成本是机会成本。（以防万一，Shazeer还补了一句：如果Page没说过，那自己已经误引他很多年了。）

Google拥有世界上最强的研究人员、最完整的工程体系、最先进的TPU和数据中心、以及足够庞大的产品入口。但越是这样的大公司，越要在安全、公平、组织边界和产品化风险之间反复权衡。

在AI这样一个窗口期极短的行业里，谨慎本身可能是必要的，但谨慎也可能变成昂贵的延迟、机会的流失。

而对OpenAI来说，Shazeer的加入，意义非常重大——就连Sam Altman都表示“从OpenAI创立之初，Noam就是他最想合作的人之一”。

OpenAI得到的是一组极其稀缺的经验集合：Transformer、MoE、大规模训练、高效解码、对话模型、基础模型工程，以及在Google这种超大规模系统里多年打磨出来的架构直觉。

大模型架构研究并不是提出一个漂亮想法就结束了。Shazeer在播客里说过，小规模研究最理想的状态，是早上醒来想到一个主意，当天写出来，跑一些实验，很快看到初步结果。

而前沿模型研发真正困难的地方，恰恰在于从“小实验”走向“大系统”。一个改进在小模型上看起来有效，放大到最大规模训练时未必还能成立；几个单独有效的技巧放在一起，也未必能协同工作。

到了最大规模训练，很多实验几乎无法真正加速。最后仍然是N=1的实验：一群最聪明的人坐在房间里，盯着训练结果，判断到底是哪一部分起了作用，哪一部分拖了后腿。

OpenAI现在需要的，不只是更多GPU、或者再训练一个更大的模型。它需要更底层的架构判断：把有潜力的结构放大到真实训练系统里，把效率提升转化为成本优势，并用新的架构变化打开下一代能力。

Shazeer最可贵的地方就在于判断能力。

与此同时，OpenAI正在面对十分沉重的财务压力。

Financial Times报道称，OpenAI 2025年支出达到约340亿美元，净亏损约390亿美元；另有泄露财务文件口径显示，归属于OpenAI的净亏损约为385亿美元。

这里面包含不少复杂的会计和非现金项目，但方向很清楚：前沿模型竞争正在变成一场极其昂贵的战争。

OpenAI的紧迫感，部分也来自它最直接的对手Anthropic。

今年6月，Anthropic和OpenAI先后提交IPO文件，两家公司几乎在同一时间把自己推向公开市场。

在这个节点上，Anthropic一直在补强核心人才。今年4月，Anthropic请来前Microsoft Azure AI高管Eric Boyd担任基础设施负责人，负责支撑Claude继续扩张所需的底层系统。5月，Anthropic还拉来了OpenAI联合创始人Andrej Karpathy，让他加入Claude的预训练团队，并组建一个用Claude加速预训练研究的小组。

于是，OpenAI也在人才上抓紧补强：Shazeer负责架构研究，Clint Gibler加入OpenAI Cyber团队，分别指向模型底层能力和安全能力。

这场人才战背后，争夺的是谁能更快找到下一代模型的训练方式、推理方式和组织计算的方式。OpenAI如果要在上市前继续证明自己的领先性，就必须证明自己有能力把模型做得更强、更稳定、更便宜。

而现在，OpenAI把这个问题交给了曾经一位参与定义Transformer的人。