Jim Fan 谈英伟达具身AI实验室与黄仁勋"所有机器人都将自主化"的预言

cover Sequoia Capital · 2024-09-17🎬 在 YouTube 观看原视频 →>

摘要

英伟达（NVIDIA）高级研究科学家 Jim Fan 在本期节目中深度分享了英伟达具身AI（Embodied AI）研究的最新进展。Jim 领导的 GEAR 团队负责英伟达的 Project Groot——一个旨在为人形机器人构建通用基础模型（Foundation Model）的登月计划。Jim 回顾了他从 2016 年成为 OpenAI 首位实习生开始的 AI 研究历程，阐述了英伟达在机器人领域的三大竞争优势：强大的算力资源、业界领先的仿真技术（Simulation），以及从芯片到模型的全栈整合能力。

Jim 详细解释了他对机器人"GPT-3 时刻"的定义——期待在未来两到三年内，看到一个能够理解"打开"等抽象动词、并在不同场景下泛化执行低层运动控制的基础模型。他将机器人系统类比为卡尼曼的快慢思考（System 1 & System 2），并讨论了单体模型与级联架构的优劣。数据策略方面，Jim 提出了"三类数据"框架：互联网规模数据（提供常识先验）、仿真合成数据（无限扩展和高通量）和真实机器人数据（无仿真到现实的差距），三者互补才能成功。

节目还涵盖了 Jim 团队在 Minecraft 虚拟世界中的研究成果（MindDojo 和 Voyager），以及这些虚拟世界研究与物理世界机器人的内在联系。Jim 提出了"基础智能体"（Foundation Agent）的宏大愿景——一个能在不同技能、不同形态、不同世界中泛化的统一模型。

正文

从 OpenAI 第一位实习生到英伟达具身AI负责人

Jim Fan 的职业旅程始于 2016 年夏天。当时，他刚被博士项目录取，暑期闲着无事，经朋友介绍加入了一家新兴创业公司——那家公司正是 OpenAI。作为 OpenAI 的第一位实习生，他的导师是 Andrej Karpathy 和 Ilya Sutskever。他们一起合作了一个名为 "World of Bits" 的项目，目标是构建一个能读取计算机屏幕像素并控制键盘鼠标的 AI 智能体（AI Agent）。

Jim 回忆道："如果你仔细想想，这个界面的通用性达到了极致——我们在电脑上做的所有事情，无论是回复邮件、玩游戏还是浏览网页，都可以通过像素到键盘鼠标控制的映射来完成。"这成为他探索 AGI 的第一章，也是他 AI 智能体研究之旅的起点。

然而，2016 年的技术条件尚不成熟。当时主要使用强化学习（Reinforcement Learning），还没有 Transformer 架构，也没有大语言模型。"强化学习在特定任务上有效，但无法泛化——你无法用自然语言指令告诉智能体去做各种不同的事情。"

此后，Jim 进入斯坦福大学，在李飞飞（Fei-Fei Li）教授指导下攻读博士学位。正是在斯坦福视觉实验室的期间（2016-2021），他亲历了计算机视觉从静态图像识别向"具身计算机视觉"的转型——智能体在交互环境中学习感知并采取行动，无论是虚拟仿真环境还是物理世界。

Project Groot：英伟达的人形机器人登月计划

Jim 目前在英伟达共同领导 GEAR（Generalist Embodied Agent Research，通才具身智能体研究）团队。该团队的工作可以用三个词概括：生成行动（Generate Actions）。团队构建具身 AI 智能体，如果行动发生在虚拟世界，那就是游戏 AI 和仿真；如果行动发生在物理世界，那就是机器人技术。

2024 年 3 月 GTC 大会上，黄仁勋（Jensen Huang）在主题演讲中发布了 Project Groot——英伟达构建人形机器人基础模型的登月计划。Jim 解释说，选择人形机器人作为主要研究载体的逻辑是：世界是围绕人类的形态构建的，所有餐厅、工厂、医院和工具都是为人类形态和双手设计的。"原则上，一个足够好的人形硬件应该能够支持任何合理人类能完成的任务。"

英伟达的竞争优势：算力、仿真与全栈整合

Jim 将英伟达在机器人领域的竞争优势归纳为三个层面。首先是算力资源：基础模型的扩展需要大量计算支持，而英伟达正是全球 GPU 算力的核心供应商。其次是仿真能力：英伟达本身就是图形公司出身，在物理仿真、渲染和实时加速方面拥有多年积累。Jim 透露，英伟达的 GPU 加速仿真器可以将真实时间加速 10,000 倍，使得数据采集通量大幅提升。

第三个优势是全栈整合：从 Jesson Thor 系列边缘计算芯片，到 Project Groot 基础模型，再到仿真工具链，英伟达正在打造一个完整的人形机器人计算平台。Jim 引用了黄仁勋的名言："一切移动之物终将自主化（Everything that moves will eventually be autonomous）。"

数据策略：三类数据的互补融合

Jim 将机器人数据策略划分为三个"桶"：

互联网规模数据——这是最多样化的数据来源，编码了大量常识先验。互联网上的绝大多数视频以人为中心，记录了人类与物体互动的各种方式。"我们可以利用这些数据让机器人基础模型学习人类如何与物体交互，以及物体在不同情况下的行为方式。"但互联网数据的局限在于：没有动作信号，无法下载机器人的电机控制指令。

仿真合成数据——在仿真环境中，可以获取全部动作信息及其后果。仿真数据的优势是"无限扩展"——投入的 GPU 越多，数据越多；并且可以通过 GPU 加速实现远高于真实时间的数据采集通量。弱点是仿真到现实差距（Sim-to-Real Gap）始终存在，物理参数和视觉效果无法完美匹配真实世界。

真实机器人数据——没有仿真到现实的差距，但采集成本极高，需要雇佣人类操作员进行遥操作，且受限于每天 24 小时的物理时间。"我们视这三种数据类型具有互补优势，成功的策略是结合它们的强项，同时消除各自的弱点。"

GPT-3 时刻与快慢思考

Jim 将机器人系统类比为丹尼尔·卡尼曼"快慢思考"框架中的两个系统。System 1 是低层运动控制——无意识的、快速的，比如抓取水杯时不需要思考每毫秒的指尖运动。System 2 是慢速、深思熟虑的推理和规划，调用有意识的大脑能力。

Jim 预计机器人领域的"GPT-3 时刻"将首先出现在 System 1 层面。他的经典例子是动词"打开"（open）：开门不同于开窗，也不同于开瓶子或打开手机，但人类能毫不费力地理解"打开"在不同情境下的不同含义。"到目前为止，我们还没有看到一个机器人模型能够在这些动词的低层运动控制层面实现泛化。我希望在未来两到三年内看到突破。"

对于 System 2，前沿大语言模型（如 GPT、Claude、Llama 等）已经展现出强大的推理、规划和编码能力。关键的研究挑战在于：如何将 System 2 模型与 System 1 整合？是采用单体模型还是级联架构？Jim 认为这是一个开放问题。单体模型更简洁，但不同控制频率（System 2 约 1Hz，System 1 可能需 1000Hz）使得编码在同一模型中极具挑战。

从虚拟世界到物理世界：Minecraft 与 Voyager

Jim 在虚拟世界方面的研究成果同样引人注目。他的团队先后开发了 MindDojo 和 Voyager 两个项目。MindDojo 构建了一个通用智能体平台，从互联网采集 Minecraft 的多模态数据（游戏视频、Wiki 页面、Reddit 论坛讨论）来训练模型。

Voyager 则更进一步：以编码作为行动方式，让智能体通过编写代码与 Minecraft 世界交互。Voyager 包含三个核心机制：自我反思循环（试错后根据反馈修正程序）、技能库（将成功的程序保存为可复用的技能）、自动课程生成（智能体自知能力边界，自主提出难度适中的新任务）。

Jim 认为，虚拟世界和物理世界的智能体共享核心原理：感知输入、行动输出、需要探索和收集数据。差异在于机器人技术额外面临仿真到现实的迁移问题。他提出了"基础智能体"（Foundation Agent）的愿景——一个能在技能、形态和世界三个维度上泛化的统一模型，既能掌控虚拟游戏，也能操控物理机器人。

快速问答：AI 的未来展望

最感兴趣的 AI 领域：视频生成。Jim 将视频生成模型视为"世界模拟器"（World Simulator），可以从数据中自主学习物理规律和渲染，"如果有了数据驱动的仿真，我们就可以在其中训练具身 AI。"
10 年远景：编码智能体达到人类级软件工程师水平，人形机器人的可靠性和敏捷性达到甚至超越人类。"我就想让机器人帮我洗衣服。"
最敬佩的人：博士生导师李飞飞（教会他研究品味——识别什么值得研究比知道如何研究更难），Andrej Karpathy（"写代码如写诗"），黄仁勋（对 AI 研究和技术细节的深刻理解）。
给 AI 创业者的建议：关注最新文献，积极使用开源工具，识别正确的长期问题。"如果你相信 10 年后世界上会有和 iPhone 一样多的智能机器人，那么最好从今天开始着手构建。"