Andrej Karpathy最新采访：现在AI仍处在模仿阶段，离自主学习还很远-钛媒体官方网站

文 | 乌鸦智能说

在红杉资本2024年的AI Ascent上，Andrej Karpathy与红杉资本合伙人Stephanie Zhan深入探讨了AI的未来发展方向和对初创企业生态系统的影响。Andrej Karpathy曾是OpenAI创始成员、前特斯拉人工智能高级总监。

在Andrej看来，Llama 和 Mistral 并不算真正意义上的开源，更像是一个二进制文件。同时，Andrej分享了他与埃隆·马斯克共事的经验，揭示了马斯克独特的管理风格和对小而精技术团队的偏好。他还讨论了AI技术的现状，指出目前AI仍处于模仿学习的初级阶段，距离实现强化学习的目标还有一段距离。

在与观众的互动环节中，他回答了关于模型合成、企业理念、以及如何平衡性能与成本的问题，并强调当下的AI发展应先追求大模型性能，再考虑降低成本。

一、LLMOS：免费、高效的的 LLM API平台
二、马斯克的企业理念：小而精的技术团队
三、初创公司：让AI生态充满活力
四、AI界的研究生院：Reinforcement Learning强化学习
五、开源，让AI触手可及

01 LLM OS：免费、高效的的 LLM API平台

Stephen Zhan：Andrej，您如何看待AGI在未来的前景？

Andrej Karpathy：几年前，我还不清楚 AGI 会如何发展。它非常学术化，你需要思考不同的方法。而现在，我觉得它非常清晰，有很多空间，每个人都在努力去填补。因此，需要进行大量的优化。

粗略地说，现在的情况是，每个人都在努力构建我所说的 LLmOS，为开发人员提供免费、快速的 LLM API。它像一个操作系统，可以把一堆外设插入这个新的 CPU 或类似的东西。当然，这些外设包括文本、图像、音频和所有模式。然后是中央处理器，也就是 LLM 变压器本身。然后，它还与我们已经建立起来的所有软件1.0 基础设施相连。因此，我认为每个人都在努力构建类似的东西，然后将其作为可定制的东西提供给经济领域的各个角落。

这大致就是我们的方向。我们可以给相对独立的AI代理分配高级任务，并以各种方式进行专业化。这将是非常有趣和令人兴奋的。这不仅仅是一个代理。而是许多代理。

Stephen Zhan：我想谈谈一些在场都关心的事，那就是 OpenAI 正在主导生态系统。今天在座的大多数听众都是创始人，他们正试图开辟一个小天地，祈祷OpenAI不会在一夜之间将他们淘汰出局。你认为其他参与者在哪些领域有机会建立新的独立公司？而OpenAI会在哪些领域继续占据主导地位？

Andrej Karpathy：OpenAI基本上是在试图建立LLmOS。我认为，正如我们今天早些时候听到的那样，它正试图开发这个平台，在这个平台之上，你可以定位不同垂直领域的不同公司。现在，我认为操作系统的比喻也非常有趣。

因为当你看到像 Windows的操作系统，它会自带一些默认应用程序，比如Edge 浏览器。所以，OpenAI 或其他大模型公司也会以同样的方式推出一些默认应用程序，但这并不意味着你可以在其上运行不同的浏览器，就像你可以在该基础设施上运行不同的聊天代理一样。因此，会有一些默认应用程序，但也可能会有一个由各种应用程序组成的充满活力的基础设施生态系统，这些应用程序会根据经济的不同角落进行微调。我很喜欢早期 iPhone 应用程序的比喻，它们看起来就像笑话。

这需要时间来发展，我想我绝对同意，我们现在正经历着同样的事情。人们正试图弄明白，这东西到底擅长什么？它不擅长什么？我该如何使用它？如何编程？如何调试？我怎样才能让它真正执行实际任务，以及怎样对它进行监督？评估是什么样的？有很多事情需要思考，也需要了解其中的心理学原理。我认为，这需要一些时间来弄清如何与这一基础设施协同工作。我们会在未来几年看到这一点。

Stephen Zhan：现在正在进行的是LLMs领域 OpenAI、Anthropic、Mistral、Llama、Gemini 的竞赛。开源模型的整个生态系统现在已经成为小型模型的长尾。你如何预见生态系统的未来？

Andrej Karpathy：这和操作系统很像，因为电脑的操作系统也被寡头垄断了，比如 Windows、Mac OS 等。我认为，大模型也许未来会出现类似的情况。

在我看来，你列举的许多产品，如 Llama 和 Mistral 等不算是开源。他们有点像折腾操作系统的二进制文件，当你只是得到一个二进制文件时，当然会更好，因为你可以 finetune 模型，这是有用的，但这有点微妙，但你不能完全 finetune 模型，因为你 finetune 模型越多，它就越可能在其他方面退化。

如果你想要增加能力，而不是回归其他能力，可能就需要在以前的数据集分布和新的数据集分布的某种混合物上进行训练。因为你不想回归旧的分布，你只想增加知识。如果只给你权重，实际上是做不到的。你需要训练循环，需要数据集等等。因此，在如何使用这些模型方面，你实际上受到了限制。再说一遍，我认为这绝对是有帮助的，但我认为我们几乎需要更好的语言来描述它。所以有开放权重模型、开源模型和专有模型，我想，这可能就是生态系统。是的，它很可能会和我们现在的系统非常相似。

Stephen Zhan：我想谈谈另外一个大家都关心的问题，那就是规模。简单地说，规模似乎就是一切。数据规模、计算规模，因此大型研究实验室、大型科技巨头如今拥有巨大的优势。你对此有何看法？这就是最重要的吗？如果不是，还有什么是重要的？

Andrej Karpathy：规模绝对是第一位的。我确实认为有一些细节需要处理好，蔽日数据集的准备工作就很重要，要做得非常好、非常干净，等等。这些都是你可以获得的计算效率提升。因此，数据、算法，当然还有模型的训练，以及使其真正大型化。因此，我认为规模将是主要决定因素。它就像事物的第一主要组成部分，但还有许多其他事情需要你去正确处理。因此，规模几乎就像设定了某种速度限制，但你确实需要一些其他的东西，但就像如果你没有规模，那么如果你要训练模型，从根本上说，你就无法训练这些庞大的模型。如果你只是要做微调之类的工作，那么我认为也许规模较小是必要的，但我们还没有真正看到这一点完全发挥出来。

Stephen Zhan：你能分享更多你认为也很重要，但优先级较低的因素吗？

Andrej Karpathy：首先，你不能只是训练这些模型。如果只给你钱和规模，实际上还是很难建立这些模型。部分原因是基础设施还很新，还在开发中，还没有完全到位。但大规模训练这些模型极其困难，是一个非常复杂的分布式优化问题。实际上，现在这方面的人才相当稀缺。它基本上会变成一个在数以万计的 GPU 上运行的疯狂的东西。所有的 GPU 都会在不同的时间点随机失效。

因此，对其进行检测并使其正常工作实际上是一项极其艰巨的挑战。直到最近，GPU 才打算用于 10,000 GPU 的工作负载。因此，我认为很多基础架构都在这种压力下吱吱作响。我们需要解决这个问题。但现在，如果你只是给别人一大笔钱、一大堆规模或 GPU，我不认为他们就能生产出这样的模型，这就是为什么这不仅仅是规模的问题。实际上，你需要大量的专业知识，包括基础设施方面、算法方面，以及数据方面和谨慎处理数据方面。因此，我认为这些都是主要的组成部分。

Stephen Zhan：生态系统发展如此迅速。幻觉、语境窗口、多模态能力、推理变得更好、更快、更便宜。当今有哪些大语言模型的研究挑战让您彻夜难眠？你认为哪些问题既迫在眉睫，又可以迎刃而解，我们还可以继续探索？

Andrej Karpathy：在算法方面，我正在思考的一件事是扩散模型和自回归模型之间的明显区别。它们都是表示概率分布的方法。而事实证明，不同的模式显然更适合这两种模式中的一种。可能有一些空间可以将它们统一起来，或者以某种方式将它们连接起来，同时获得一些两全其美的方法，或者找出我们如何能获得一种混合架构等等。

令我感到有些奇怪的是，在模型的空间里，我们有两个不同的点，它们都非常好，但中间却什么都没有，这让我觉得很不对劲。因此，我认为我们会看到这种情况的出现。另外，我还想说的是，在运行这些东西的能量效率上，还有很大的差距。

就运行这些模型的效率而言，我们可能差了一千到一百万倍。当然，我认为部分原因是我们设计的计算机并不适合这种工作负载。我认为，英伟达在这个方向上迈出了很好的一步，因为你需要极高的并行性。实际上，我们并不关心以某种方式依赖数据的顺序计算。我们只需要在许多不同的数组元素或其他东西上执行相同的算法。因此，我认为第一条就是让计算机架构适应新的数据工作流。

第二点是推动我们目前看到的一些改进。第一项精度，我们看到精度从最初的双倍 64 位下降到现在的四位、五位、六位，甚至 1 位。现在已经降到了，我不知道是多少，4、5、6，甚至 1.58，这取决于你读的是哪篇论文。因此，精确度是第一个重要杠杆。

然后第二个当然是稀疏性，这也像另一个重要差距。你的大脑并不总是完全激活，稀疏性是另一个重要的杠杆。我也觉得冯-诺依曼架构的计算机，以及它们是如何构建的，以及它们在穿梭数据进出，在内存和进行所有计算的内核之间进行大量的数据移动。

这都是有问题的，因为你的大脑不是这样工作的，这也是它如此高效的原因。所以我认为，在计算机架构领域，这将是一个非常激动人心的时刻。我不是计算机架构师，但我觉得，我们好像差了一百万倍，一千到一百万，差不多吧，应该会有令人兴奋的创新来降低误差。

02 马斯克的企业理念：小而精的技术团队

Stephen Zhan：在场或许有几位算法工程师在研究这个问题。换个话题，你曾与AI界许多知名人物共事。比如，埃隆-马斯克和OpenAI的CEO奥尔特曼、创始人格雷格•布罗克曼。你如何看待他们带领团队的文化和理念？

Andrej Karpathy：埃隆·马斯克经营公司的风格非常独特。第一点是，他喜欢非常小的、强大的、高度技术化的团队。默认情况下，公司都喜欢团队不断壮大。埃隆总是喜欢反对扩大团队。我必须努力工作，花大力气才能雇到人。我不得不像恳求一样去雇人。而且，埃隆·马斯克还很喜欢裁人。所以，我必须几番争取才能留下那些马斯开默认要裁掉的人。他总是希望保持一个小而强、技术含量高的团队。我们基本没有管理人员，因为他们不懂技术。这是第一点。

第二点是，他喜欢充满活力的工作氛围和环境。所以办公室里，人们经常走来走去。马斯克必须看到，员工在绘制图表，在编码。他不喜欢闲散的氛围。他也很抵触开会，他讨厌没有意义的会议。在马斯克看来，只要你不能对团队有所贡献，你就走人。在别的公司，这是很罕见的，很多大公司都很宠爱员工。因此， "活跃的氛围 "是他管理团队的第二个理念。马斯克的企业文化就是，你要尽全力做好技术工作，还要有一定的强度。

最后一点其实很有趣、也很奇怪，那就是他与团队的联系是如此紧密。通常情况下，公司的首席执行官就像一个很遥远的人，上至五层，与副总对话，与报告和总监对话，最后与你的经理对话。但马斯克不是这样的，他会来办公室和工程师们谈话。我们开过的很多会议都是，50个人和埃隆在一个房间里。他直接与工程师交谈。他不想只跟副总裁和总监谈话。

通常情况下，CEO会花 99% 的时间与副总交谈。他可能只花 50%的时间。他只想和工程师交谈。在他看来，在一个小而强的团队里，工程师和代码就是一切的基础，而不是某个经理。他希望与工程师直接交谈，以了解项目的实际进展，以及如何改进。因此，作为CEO却与技术工有如此紧密的联系，也是马斯克独有的做派。

他经常问工程师在研发过程遇到了什么困难。有时候他们会说，没有足够的 GPU 来运行这个程序。马斯克就会让GPU集群的负责人现在就把GPU集群加倍。他会让负责人每天给他发更新，直到集群规模翻倍。负责人可能会谁，我们已经制定了采购计划，但是英伟达现在没有足够的 GPU，需要六个月准备。然后你会看到马斯克眉毛一挑，然后他就会说，那我和黄仁勋谈谈。这样，他就解决了这个问题。

外界都不知道马斯克在公司内部解决了多少像这样琐碎又关键的问题。其实，对一个CEO来说，这是很少见的，至少在大部分公司你都不会看到。马斯克的管理风格真的非常独特，也很有效，希望在座的也能从中汲取一二。

03 初创公司：让AI生态充满活力

Stephen Zhan：回到之前的话题，你参与创办了一些在AI界顶级公司。你也是许多人进入人工智能领域的领头人，甚至很多就在今天的观众席上。据我了解，你最关心的是人工智能的普及、教育、工具，以及如何在整个AI生态系统中创造更多平等。在你步入生命的下一个阶段前，你认为什么是最有意义的事？

Andrej Karpathy：我为几家公司工作过，但我最终关心的不是任何一家特定的公司。我更关心整个AI生态系统是否良性运作。我希望这个生态系统欣欣向荣，像珊瑚礁一样汇聚了许多别具一格的、有创意的初创企业，触及经济的各个角落。这就是我爱创业公司的原因，我希望这里有一个充满活力的生态系统。但我担心的是，基于AGI对资本放大和集中的能力，未来会有几大巨头控制这个游戏。我始终期待健康的、充满活力的生态系统。

Stephen Zhan：你说的很在理，现在是观众提问环节，我们请一些在座的听众互动。

Brian Halligan:你会建议创始人效仿埃隆的管理方法，还是说这是他的独特之处，你会模仿他吗？

Andrej Karpathy：这取决于创始人的基因。你必须有相同的基因，这是一种与生俱来的气质。当你在招聘团队时，一定要在前面说清楚，这就是你的公司。一开始，当人们注册时，员工会非常乐意接受。但如果你半途而废突然改变，人们就感到很混乱。因此，只要你从一开始就秉承这样的态度，并且始终如一，你就可以这样经营一家与马斯克风格类似的公司。但这也有它的利弊，这取决于不同的人，但我认为这是一种值得效仿和借鉴的的公司建设和运行模式。

Alex：除了专家混合模型之外，您对其他类型的模型合成能力有没有兴趣？我不直到你对模型合并或其他任何使模型开发更具可组合性的东西有没有什么看法。

Andrej Karpathy：我看到过这方面的论文，但我不知道这会不会有长久的发展潜能。我不知道你具体指的是什么，也许是可组合性，但有很多关于参数效率训练之类的工作。我不知道按照我的理解，你是否会将其归入可组合性的范畴，但这只是传统代码可组合性很强的情况。

神经网络在默认情况下连接更紧密，可组合性更低，但它们确实可以组合，可以作为整体的一部分进行微调。举个例子，如果你正在做一个系统，你想让Chat GPT和图像组合在一起。常见的做法是，你预先训练组件，然后将它们插入并微调整个系统。从在这些方面讲，是具有可组合性的，你可以在外部预先训练大脑皮层的小部分，然后再通过初始化和微调将它们组合起来。也许这些是我对它的零散想法，但目前我还没有形成一整套较为连冠的理论。

04 AI界的研究生院：Reinforcement Learning强化学习

Nick：AI接下来的一个方向是词语预测，所以我们有了下一个词的预测。你认为有没有办法建立一个物理学家或者一个冯·诺依曼类型的模型，这个模型有一个自洽的物理心理模型，可以产生新的想法，来指导你如何进行聚变？如果可能的话，你怎么能比光速旅行更快呢？有什么办法可以做到这一点吗？或者，就这些人工智能模型的发展而言，它是一个根本不同的向量吗？

Andrej Karpathy：是的，两者之间有本质区别，这里还有很多难关需要破解。在我看来，目前的AI发展离你口中的世界还很遥远。粗略地说，我们已经完成了AlphaGo的第一步，机器的模仿学习部分。AlphaGo的第二步是RL（reinforcement learning，强化学习），现在的技术还没有做到RL。而RL将从根本上改变AlphaGo，这是真正让它成功并创造出超人的部分。这是我们需要攻克的难题，也有很多棘手的细节。长话短说，AI还处在模仿阶段，就是AlphaGo的第一阶段。

人们并不会只满足现阶段的AI发展。像Chat GPT这样的数据收集推理并没有我们想象中那么强大。比如，当你遇到了一个问题，提示是某种数学问题，我们就想让ChatGPT给出我们正确答案。问题在于，我们的问题不只是数学问题。人类的心理与模型的心理是不同的。人类思维的难易程度与模型的难易程度不同。人类在处理问题的时候会有一个抽丝剥茧的逻辑推理过程。但其中有推理对模型来说很容易理解，有些推理过程则就像天书一般，模型是无法理解的。

从根本上说，我们需要的是让模型自己练习如何解决这些问题。它需要搞清楚什么对它有用，什么对它没用。也许它不太擅长四位数加法，所以它会退回去使用计算器。但它需要根据自己的能力和知识自己学习。还有一点，现在的AI仍在从人类的反馈中进行强化学习，但这是一种超级弱的强化学习形式，这甚至不能算作强化学习。

AlphaGo 中的 RLHF 相当于什么？奖励模型是什么？我称之为 "氛围检查（vibe check）"。如果你想训练一个 AlphaGo RLHF，你会给两个人两块棋盘，然后说，你更喜欢哪一块？然后你就会使用这些标签来训练模型，然后针对这些标签进行强化学习。其次，如果奖励模型是一个神经网络，那么你在优化模型时就很容易过度拟合奖励模型，这样就会找到所有这些虚假的方法来欺骗那个庞大的模型，这就是问题所在。

AlphaGo可以解决这些问题，因为他们有一个非常明确的目标函数，你可以用强化学习与之对抗。所以RLHF（基于人工反馈的强化学习）远远不够，我会说 RL 就像傻子一样，另外模仿学习也超级傻。人们需要寻找更好的方法来训练这些模型，使其与自身和自身心理保持一致。在这个方向上我们还需要不断探索进步，这有点像人工智能模型的研究生院。AI也需要像我们一样自己在图书馆捧着一本书自主学习。

举个例子，当你在学习知识，教科书里会有练习，也会有提示你练习教材的内容。但是，这不仅仅是从左往右读（Alphago的第一阶段模仿学习）。你需要练习，做笔记，你要重新措辞，重新构思。就像你在学习这些知识的过程中，对这些知识进行了大量的操作。而我们在llm大语言模型中还没有看到类似的事情。所以，AI发展尚在早期。

Yuzi：同时兼顾最优性和实用性很酷。我想问的是，你们是如何将A（降低成本、创造收入）和B（寻找推理能力更强、质量更好的模型）这两个优先事项结合起来的？你们将如何协调两者？

Andrej Karpathy：一般做法是，一开始就不计成本使用功能最强大的模型，比如同时使用 GPT-4和超级提示，只是想让你的东西发挥作用。所以，首先要追求准确性，然后再做出让步。你要检查某些类型的查询是否可以降到 3.5。然后再检查是否可以降低成本。所以我会说，先追求性能，然后再降低成本。

如果你能让它运转起来，比如说你做了10个提示或20个提示，然后你挑出一个最好的，你进行了一些比较筛选，或者这就是最佳版本之前的试错。通过不断试错，你就能得到大量可能的问题类型。在此基础上，你可以运行程序来获取标签。然后，你可以得到一个更精简、成本更低的模型，在上面进行微调。无论如何，我都会先尽可能做好工作，然后再降低成本，这是我的建议。

05 开源，让AI触手可及

Sam：在过去的一年里，我们从开源生态系统中看到了很多令人印象深刻的成果。我很好奇，随着模型规模的不断扩大，开源生态系统会继续跟上闭源开发的步伐吗？

Andrej Karpathy：从根本上说，我也不清楚。这些模式都是资本密集型的，比如Facebook和Meta等，他们有能力大规模培训这些模型，但这并非他们的核心业务，因为这并不是他们的摇钱树。

因此，他们有实际的动力去发布其中的一些模型，从而增强整个生态系统的能力，这样他们就能引入所有创新的点子。但到目前为止，我认为他们只做到了开放权重模式。我认为他们应该更进一步，这也是我希望看到的。这对大家都好。但是就模型训练数据而言，社会一直存在一些争议。我不知道如何克服这一点。也许他们应该尝试寻找他们认为非常容易使用的数据源，或者类似的数据源，并尝试将模型架在这些数据源上。

Meta 和 Facebook 做得很好，是这个领域的领头羊。他们发布了论文、日志等。在促进生态系统方面，他们可以做得更好。我想，提高更多的透明性，这指日可待。

Peter：什么会让人工智能生态系统更酷、更有活力，同时，什么阻碍了它的发展？是开放性，还是其他你认为或许更重要的东西？

Andrej Karpathy：一个重要方面就是AI是否是开放的、可触及的。我最近发过一条推特，说的是 "第一，设计产品；第二，加速发展"。我想说，有很多人都在做第一件事—设计更多的AI产品。但是，专注于创新加速发展的却少得多。我们都是新手，都在试图了解AI是如何工作的。我们都需要加强合作，以弄清如何有效地使用它。所以，我希望大家能更开放地分享他们的心得，他们是如何训练这些东西的，哪些有效，哪些无效，这只是为了让我们从彼此身上学到更多。第二，开放生态系统也展现了相当大的发展势头，也许还有一些我已经说过的改进机会。

Michael：要从模型中获得下一个巨大的性能飞跃，您认为用思想标记（thought tokens）或激活信标（activation beacons）修改transformer架构就足够了吗？还是我们需要完全抛弃它，并提出一个新的基本构建块，将我们带到下一个重大进步或AGI？

Andrej Karpathy：首先，我要说的是Transformer太不可思议了。在Transformer问世之前，我曾一度以为神经网络会疯狂地多样化。但事实并非如此，甚至完全相反。所有的模型都是一样的。能做到这一点真是不可思议。我不知道这是不是最终的神经网络...从这个领域的历史来看，很难说这就是它的终结。在自回归或融合方面，这有点像建模和损失设置，我想说的是，那里肯定会有一些成果。但同样在Transformer上，精度和稀疏性这些杠杆，在我们的推动下，加上硬件的协同设计以及可能的发展，使网络架构更加适应这些约束条件，以及所有这些如何发挥作用。

在某种程度上，Transformer 是为 GPU 而设计的。可以说，这是 Transformer 论文中的一大飞跃，也是他们的出发点，即我们想要一个从根本上来说非常可并行化的架构。由于递归神经网络具有顺序依赖性，这对 GPU 来说是非常可怕的，而 Transformer 则从根本上打破了这一限制。

但这也是一种针对现有硬件的算法。因此，我认为这也是一种相同的精神。但长话短说，我认为我们很可能还会看到它的变化。但不得不说，Transformer在问世的8年间已经被证明具有非凡的适应能力。所以最初的Transformer和我们现在用的并没有太大区别。

Stephen Zhan：临别之际，您对在座的所有创始人和AI工程师有什么建议？

Andrej Karpathy：我通常没有什么通用建议。我关心的事情是，创始人也会非常关心。我还想，比如我们如何才能拥有一个充满活力的初创企业生态系统？初创企业如何继续胜出，尤其是在与大型科技公司的竞争中？生态系统如何变得更健康，你能做些什么？

Stephen Zhan：听起来你应该成为一名投资者。非常感谢你的参与，Andrej，感谢你今天一整天的参与。