黄仁勋对话Transformer七子：所有的机器学习都是颠覆者，人类正见证“AI工厂”的诞生

钛媒体App获悉，北京时间3月21日凌晨举行的英伟达GTC大会期间，英伟达CEO黄仁勋（Jensen Huang）主持了一场圆桌论坛，邀请了七位改变 AI 发展历程、支撑ChatGPT的底层技术架构的Transformer论文《Attention is All You Need》的作者们。

除了黄仁勋外，七位嘉宾分别为Essential AI联合创始人兼CEO Ashish Vaswani，Character.AI 联合创始人兼CEO Noam Shazeer，Essential AI 联合创始人Niki Parmar，Inceptive联合创始人兼CEO Jakob Uszkoreit，Sakana AI联合创始人兼CTO Llion Jones，Cohere联合创始人兼CEO Aidan Gomez，OpenAI 技术人员Lukasz Kaiser，NEAR Protocol联合创始人Illia Polosukhin。而另一位作者Niki Parmar未出席此次圆桌论坛。

黄仁勋开场就表示，在过去的六十年中，计算机技术似乎并没有经历根本性的变革。自1964年以来，现代计算并没发生过根本性改变。尽管在20世纪的80年代和90年代，计算机经历了一次重大的转型，形成了今天我们所熟悉的形态。但随着时间的流逝，计算机的边际成本持续下降，每十年其成本就减少十倍，十五年减少一千倍，二十年减少一万倍。在这场计算机革命中，成本的降低幅度是如此之大，以至于在二十年的时间里，计算机的成本几乎降低了一万倍，这种变化为社会带来了巨大的动力。

他指出，2012年AlexNet点燃了星星之火，这是 AI 与英伟达GPU的首次碰撞。这标志着我们在这一领域的神奇旅程的开始。几年后，我们发现了一个完美的应用场景，为我们今天的发展奠定了基础。

而事实上，2017年，《Attention is All You Need》横空出世，首次提出了基于自注意力机制的Transformer模型。这一深度学习架构使用注意力来显著提高深度学习NLP翻译模型的性能，允许模型同时处理输入序列的所有元素，并捕捉它们之间的复杂关系。

Transformer的问世标志着，模型的建构从序列建模的传统方法（如长短期记忆网络和门控循环单元）转变到一个更加高效、更能捕捉复杂语言模式的新框架。包括大型语言模型ChatGPT、Llama、GPT-4等就是基于这一架构创造的。

如今火热的生成式 AI 技术，既是一种全新的“软件”，又能够创造软件，并且依赖于众多科学家的共同努力。利用数据、GPU它就能输出神奇的结果。它正在重塑一切，人类正在见证“AI工厂”的诞生。

此次圆桌论坛上，黄仁勋问到为何要起Transformer这个名字。Jakob Uszkoreit直接表示，“我们喜欢这个名字，我们只是随便起了一个名字，觉得它很有创意，改变了我们的数据生产模式，使用了这样一种逻辑。所有的机器学习都是Transformer，都是颠覆者。”

Llion Jones指出，当时，作者们都被困在原始模型上。他直言，从技术上讲，Transformer可能不是我们现在拥有的最强大的东西。

此外，在圆桌论坛上，黄仁勋还与他们聊了许多令人印象深刻的观点，包括如何启发他们去做了Transformer、对于当前模型的看法、自适应计算和推理的重要性等。

图片来源：英伟达官网

以下是钛媒体App进行的核心对话信息整理：

什么启发你们去做了Transformer？

Illia Polosukhin表示，当他想发布能够真正读取搜索结果的模型，比如处理成堆的文档，需要一些能够迅速处理这些信息的模型。但当时的递归神经网络（RNN）并不能满足这样的需求，RNN需要逐个单词地阅读，效率不高。

Noam Shazeer也补充道，RNN处理起来实在是太麻烦了。然后团队开始探讨用卷积或者注意力机制来取代它。“我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们本可以用蒸汽机完成工业革命，但那将会非常痛苦，而内燃机让一切都变得更好，”Noam Shazeer说。

Ashish Vaswani认为，那些可以扩展的通用架构最终将在长期中胜出。“今天可能是token，明天可能就是我们在计算机上采取的行动，它们将开始模仿我们的活动，并能够自动化我们所做的许多工作。正如我们所讨论的，Transformer特别是其自注意力机制，具有非常广泛的适用性，它也让梯度下降变得更好。另外就是物理学，因为我从Noam那里学到的一点是，矩阵乘法是个好主意。”

这个世界需要比Transformer更好的东西

Aidan Gomez称认为，这个世界需要比Transformer更好的东西，我想在座的所有人都希望它能被某种东西所取代，将我们带到一个新的性能高原。

Llion Jones也表示赞同：“（相比Transformer）我们需要变得更好，因为如果它只是稍微好一点，那么这还不足以将整个AI行业推向新事物。因此，我们被困在原始模型上，尽管从技术上讲，它可能不是我们现在拥有的最强大的东西。”

自适应计算是接下来必须出现的事情之一

关于计算资源如何实现高效分配的问题，Jakob Uszkoreit表示：“我们不希望在一个容易的问题上花太多钱，或者在一个太难的问题上花费太少而最终得不到解决方案。”

Illiya Polosukhin进行了举例说明：“就像2+2，如果你正确地将它输入到这个模型中，它就会使用一万亿个参数。所以我认为自适应计算是接下来必须出现的事情之一，我们知道在特定问题上应该花费多少计算资源。”

Lukasz Kaiser称团队所有人都研读过克劳德·艾尔伍德·香农（美国数学家、信息论创始人）的论文。“我们最初只专注在语言建模和困惑度上，但事实上这并没有实现。我认为这也是我们能够进一步发展的地方。这也与我们现在如何智能地组织计算资源有关，这种组织方式现在也适用于图像处理。我的意思是，扩散模型具有一种有趣的特性，它们能够通过迭代不断地精炼和提升质量。而我们目前还没有这样的能力。

存在一个根本性问题，哪些知识应该内置于模型之中，哪些知识应该置于模型之外？是使用检索模型吗？RAG（Retrieval-Augmented Generation）模型就是一个例子。同样地，这也涉及到推理问题，即哪些推理任务应该通过外部的符号系统来完成，哪些推理任务应该直接在模型内部执行。这在很大程度上是一个关于效率的讨论。我确实相信，大型模型最终会学会如何进行2+2这样的计算，但如果你要计算2+2，却通过累加数字来进行，那显然是低效的。”

当前的模型太过经济实惠，规模也还太小

Noam Shazeer认为，当前的模型太过经济实惠，规模也还太小。它之所以便宜，是因为像NV这样的技术。感谢它的产出，使得每次操作的计算成本大约是10美元—18美元。或者说，大致在这个数量级。感谢您（指黄仁勋）创造了如此多的计算资源。但是，如果大家观察一个拥有五千亿参数的模型，并且每个token进行一万亿次计算，成本大概是一美元百万token，这比外出购买一本平装书的成本要便宜100倍。我们的应用程序在价值上比巨型神经网络上的高效计算高出百万倍甚至更多。我的意思是，它们无疑比治愈癌症等事情更有价值，而且不仅如此。”

Ashish Vaswani：“我觉得让世界更聪明，就是指如何去获得来自于世界的反馈，我们能否实现多任务、多线的并行。如果你真的想构建这样一个模型，帮助我们设计这样一个模型，这是一种非常好的方式。”

“下一步是推理”

Jakob Uszkoreit表示，下一步是推理。“我们都认识到了推理的重要性，但很多工作目前还是由工程师手工完成的。我们实际上是在教他们以一种交互式的问答方式去回答，我们希望他们能够理解为什么在一起提供强有力的推理模式。我们希望模型能够生成我们想要的内容，这样的生成方式是我们所追求的。无论是视频、文本还是3D信息，它们都应该被整合在一起。

在Lukasz Kaiser看来，推理实际上来源于数据。“如果我们开始进行推理，我们手头有一系列数据，我们会思考这些数据为何与众不同？然后我们会了解到各种不同的应用，其实都是基于数据推理的过程。由于计算机的能力，由于这样的系统，我们可以从那里开始进一步发展。我们可以推理出相关的内容，进行实验。

很多时候，这些都是源自数据的。我认为推理的发展非常迅速，数据模型也非常重要，而且不久的将来会有更多交互性的内容。我们还没有进行充分的培训，这不是关键内容和要素，我们需要让数据更加充实。”

Ashish Vaswani提出，在这一领域，他们有很多合作伙伴取得了一些里程碑式的进展。“最好的自动化算法是什么？其实是将真实世界的任务分解成不同的内容。我们的模型也非常重要，它帮助我们获取数据，观察数据是否处于正确的位置。一方面，它帮助我们关注数据；另一方面，这样的数据为我们提供了优质的模型来完成抽象任务。因此，我们认为对这一进展的衡量，也是创意的一种方式，是科学发展的一种方式，也是我们自动化发展的一种方式。”

以下是Transformer八位作者的详细信息：

Ashish Vaswani：论文一作，美国南加州大学计算机科学博士学位，2016年作为研究科学家加入谷歌大脑团队。2022年4月，与Niki Parmar共同创办了Adept AI，但两人均于12月离开该公司，并共同创立了另一家AI初创公司Essential AI。

Niki Parmar（未出席此次圆桌论坛）：美国南加州大学计算机科学硕士学位，在谷歌大脑团队工作了四年，之后与Ashish Vaswani共同创立了Adept AI和Essential AI。

Jakob Uszkoreit：柏林科技大学计算机科学硕士学位。2008年进入谷歌工作，2021年离开谷歌后，Jakob Uszkoreit与他人共同创立Inceptive。

Illia Polosukhin：2014年前加入谷歌，曾任谷歌深度学习小组项目主管，带队负责核心搜索算法业务近10年，也是谷歌TensorFlow AI开源项目的主要代码贡献者。2017年Illia Polosukhin与他人共同创立了区块链公司NEAR Protocol。

Noam Shazeer：于2000年至2009年和2012年至2021年期间就职于谷歌。2021年，Shazeer离开谷歌并与前谷歌工程师Daniel De Freitas共同创立Character.AI，致力于开发生成式AI聊天机器人。

Llion Jones：伯明翰大学计算机科学硕士学位。于2012年加入谷歌，担任软件工程师。2023年8月离开谷歌，并于日本创办AI初创企业Sakana AI。

Lukasz Kaiser：曾任法国国家科学研究中心研究员。他于2013年加入谷歌。2021年，他离开谷歌，成为OpenAI的研究员。

Aidan Gomez：英国牛津大学计算机科学博士。Transformer论文发表时，他还是谷歌大脑团队的实习生。他是八人团队中第二个离开谷歌的人。2019年，Aidan Gomez与他人共同创立了Cohere，该公司专注于提供NLP模型，帮助企业改善人机交互。

（本文首发钛媒体App，作者｜任颖文，编辑｜林志佳）

发表评论

0 / 300

根据《网络安全法》实名制要求，请绑定手机号后发表评论

请登录后输入评论内容

单身歌无情
人类将见证AI工厂的诞生，没有人的事儿了吗？
回复 2024.03.23 · via iphone
只为你拥有
黄仁勋对话七子：所有的机器学习都是颠覆者
回复 2024.03.23 · via pc
电子机器人
这是个值得考虑的问题
回复 2024.03.23 · via pc
mmr1995
人类将成造物主了；还要主宰一切
回复 2024.03.22 · via pc
在靠近点就要融化
下一步的推理是什么？是需要人还是Ai？
回复 2024.03.22 · via android
吃一碗排骨周
万能的造物主啊，是谁？
回复 2024.03.21 · via android