英伟达Jim Fan：如何构建开放世界中的通用智能体？

近日举行的GTC大会上，英伟达CEO黄仁勋（Jensen Huang）宣布推出通用人形机器人基础模型项目——英伟达GR00T平台。

黄仁勋表示，GR00T是英伟达为波士顿动力、宇树科技和小鹏鹏行等人形机器人制造商提供的一个专用AI平台。

“构建通用人形机器人的基本模型，是我们今天可以在AI领域解决的最令人兴奋的问题之一。这些技术正融合在一起，使世界各地领先的机器人专家，能够在通用人形机器人领域取得巨大飞跃。”黄仁勋称，而GR00T这一名字似乎是致敬漫威宇宙的超级英雄Groot。

而在3月23日，GTC大会官方释出英伟达公司研究经理、英伟达GearLab实验室负责人Jim Fan进行的一场接近一个小时左右的演讲，题目为《在开放世界中的通用智能体》。

Jim Fan在演讲中详细整理和分享英伟达在“具身智能”（Embodied AI）、人形机器人平台以及 AI 智能体（AI Agents）等方面的技术进展。

事实上，所谓“具身智能”，就是指机器人或智能系统能够通过感知器和执行器与其所处的环境进行实时互动，通常具备感知、认知、决策和行动的能力，能够根据环境的变化做出相应的调整。

与传统机器人相比，具身智能对环境的感知和响应能力相对更出色。而且，具身智能不仅能接收外部信息，还能理解这些信息，并作出适当的反应。

在此之前，华人计算机科学家、斯坦福大学教授李飞飞，上海交通大学教授卢策吾等人都曾提出“具身智能”这一概念技术。

随着2022年底发布的ChatGPT风靡全球，在 ITF World 2023 半导体大会上，黄仁勋表示，AI 的下一个浪潮将是“具身智能”，即能理解、推理、并与物理世界互动的智能系统，引发全球关注。

今年GTC大会上，黄仁勋在现场展示了由Disney Research研发、由英伟达Jetson 机器人芯片驱动的迪士尼机器人。黄仁勋对此非常满意。

英伟达研究经理Jim Fan

Jim Fan透露，今年2月，在黄仁勋的支持下，英伟达建立了通用化身智能体研究实验室——GearLab，Jim Fan是该实验室的负责人。他将带领团队研究和布局具身智能、AI 智能体等下一代 AI 与机器人结合的创新技术。

Jim Fan 是英伟达NVIDIA的研究经理（Research Manager），也是“具身智能”的主导人之一。他主要致力于开发具有泛化能力的自主智能体。为了应对这个重大挑战，他的研究涵盖了基础模型、政策学习、机器人、多模态学习和大规模系统。他在斯坦福大学获得了计算机科学博士学位。

在演讲中，Jim Fan表示，通用智能体拥有三大特征——能在开放世界中探索、拥有海量世界知识、能执行无数任务。因此，这一领域技术研究需要足够开放的环境、大规模预训练数据和强大的基础模型。

“让我们回到基本原则。一个通用智能体需要具备哪些基本特征呢？我认为有三点。
首先，它应该能够在一个开放的世界中生存、导航和探索。一个具体的目标只有一个，而这个目标并不是开放的。
其次，世界知识。智能体应该拥有大量的预训练知识，而不是仅仅知道环境中的几个概念。
第三，作为一个通用智能体，它必须能够执行多项任务，理想情况下，应该能够执行无数任务。你只需使用任意语言给出提示词，智能体就应该能够为你完成任务。
因此，我们需要的环境要有足够的开放性，因为智能体的复杂性受到环境复杂性的限制。以我们生活的地球为例，正是因为地球的开放性，才催生了名为自然进化的算法，创造出了地球上所有多样化的生命行为。那么，我们能否创造一个基本上是低保真度的地球模拟器，但我们仍可以在实验室的电脑上运行呢？
接下来，我们需要为智能体提供海量的预训练数据，因为在如此开放的世界中从零开始探索几乎是不可能的。这些数据将成为如何操作的参考手册，更重要的是，它会告诉我们什么是值得尝试的有趣事物。
最后，我们需要一个可扩展性强的基础模型，能将这大规模的数据转化为可操作的洞察信息。基于此，我们想到了"我的世界"，这是史上最畅销的视频游戏。对于不熟悉的人来说，"我的世界"游戏是一个由 3D 立体像素程序生成的世界。在这个游戏中，你可以尽情发挥你的想象力。所以，该游戏的独特之处在于，"我的世界"并没有设定具体的最高得分或要遵循的目标。这使它非常适合作为一个真正开放的环境。”Jim Fan表示。

从AlphaGo、MineCLIP，到Voyager、Eureka、Groot，从具身化（Embodiment）和技能（Skill），从单一形态到多形态，英伟达在“具身智能”和 AI 智能体方面进行了多年的布局研究，希望能在 AI 通用体方面有所成果。

目前，英伟达拥有多模态具身智能系统Nvidia VIMA，其能在视觉文本提示的指导下，执行复杂任务、获取概念、理解边界、甚至模拟物理学——这也标志着 AI 能力的显著进步。

“我相信，训练这种基础智能体的过程将和 ChatGPT 非常相似。所有的语言任务都可以被归类为文本输入和输出，无论是写诗、翻译，还是做数学。训练 ChatGPT 就是在大量的文本数据上进行扩大。同样的，基础智能体会接受一个实体化提示词和指令提示词作为输入，然后输出行动指令。我们只需在大量环境中大规模扩大它。
基础智能体是 GearLab 的下一章。昨天，老黄在他的主题演讲中宣布了我们路线图上的一项重要倡议，即 Groot 项目。我们的目标是为人形机器人构建一个基础模型。为什么要选择人形呢？因为这是最通用的形式。我们所生活的世界是为了适应人类和人类的习惯而形成的。理论上，我们在日常生活中可以做到的所有事情，都可以在足够先进的人形机器人硬件上实现。因此，我非常兴奋能与全球多家领先的人形机器人公司合作，使得 Groot 能够在不同的实体之间进行迁移。在一个更高的层面上，Groot 可以接受包括语言、视频和示范等多模态指令，并在模拟以及真实世界中开发技能。”Jim Fan表示。

Jim Fan指出，如今Groot项目的目标，是为最通用的人形机器人打造基础模型，通过海量环境训练获得通用性，并与各种基础设施共建生态。而且，未来新的人形机器人不仅会搭载Jensen Thor芯片，并有望在边缘计算设备上驱动Groot。

“Groot 是在 OSPO 上诞生的，这是一个新的计算调度系统，用于在 DGX 上提升模型的规模，以及在 OVX 上进行模拟。我们在 Isaac 实验室为人形机器人运行了许多不同的环境，期望模型能适应各种技能和环境，并能在模拟与真实的场景间无缝迁移，以便我们可以大规模扩展训练，利用 GPU 加速的模拟环境。”Jim Fan在演讲中指出。

Jim Fan强调，GEAR 实验室是一项以使命为驱动的研究。“通用 AI 之路任重道远，GEAR 实验室正朝着这一使命不懈努力。”

（本文首发钛媒体App，作者｜林志佳）

英伟达Jim Fan：如何构建开放世界中的通用智能体？｜钛媒体AGI

敬原创，有钛度，得赞赏