机器人的终局：英伟达 Jim Fan

cover Sequoia Capital · 2026-04-30🎬 在 YouTube 观看原视频 →>

摘要

英伟达具身自主研究团队（GEAR）负责人 Jim Fan 在 Sequoia AI Ascent 2026 上发表了一场关于机器人技术终局的震撼演讲。他以一个深刻的类比开场——"伟大的平行线"（The Great Parallel）：正如大语言模型（Large Language Model, LLM）经历了预训练（Pre-training）、监督微调（Supervised Fine-Tuning, SFT）和强化学习（Reinforcement Learning, RL）三阶段跃迁而接近终局一样，机器人学也将复制这条路径，只不过从"预测下一个 token"变为"预测下一个物理世界状态"。Jim 系统性地阐述了模型策略与数据策略的双重变革：在模型侧，从以语言为第一公民的视觉语言行动模型（Visual Language Action Model, VLA）转向以视觉和行动为第一公民的世界行动模型（World Action Model, WAM）——Dreamer；在数据侧，从遥操作（Teleoperation）的黄金时代，经由数据穿戴设备（如 UMI、Dex-UMI），最终走向以自我中心视频（Egocentric Video）为主食的数据飞轮。其旗舰项目 Ego-Exo 仅用 21,000 小时人类自我中心视频预训练、50 小时动捕手套数据和 4 小时遥操作数据（不到训练总量的 0.1%），便实现了高度灵巧的机器人操作，并首次发现了灵巧性的神经缩放定律（Neural Scaling Law）。Jim 还展示了 Dream Dojo——一个完全由数据驱动、无需物理方程和图形引擎的神经模拟器，以及"计算即环境即数据"的新范式。最后，他提出了机器人学尚需解锁的三个成就：物理图灵测试（Physical Turing Test）、物理 API（Physical API）和物理自动研究（Physical Auto Research），并大胆预测机器人终局将在 2040 年到来。

正文

伟大的平行线：复制 LLM 的成功

Jim Fan 以一个个人故事开场。2016 年夏天，在如今这个会场所在的办公室里，一位穿着闪亮皮夹克、肱二头肌发达的人举起一块巨大的金属板，上面写着："致 Elon 和 OpenAI 团队，致计算和人类的未来，我向你们呈上世界上第一台 DGX-1。"那是 Jim 第一次见到黄仁勋（Jensen Huang）。作为一名优秀的实习生，他冲上去签了自己的名字——那个签名至今留在这台 DGX-1 上，旁边还有 Andrej Karpathy 的签名。

然而，真正改变一切的是过去六年中 LLM 经历的三次阶跃式跃迁。第一次，GPT-3，预训练（Pre-training）——下一个 token 预测的本质是学习语法规则、语言形态，模拟思想和代码应该如何展开。第二次，2022 年的 InstructGPT——监督微调将这种模拟对齐到有用的工作任务上。第三次，O1 推理——用强化学习超越模仿学习（Imitation Learning），最终实现自动研究（Auto Research），加速整个循环超越人类可能的极限。

正如 Andrej Karpathy 所说，所有实验室都在进入"最终 Boss 战"。LLM 领域正在极速奔向 AGI（通用人工智能），而 Jim 坦率地说："我很嫉妒。LLM 的人们正在享受他们一生中最盛大的派对。那么，机器人为什么不能分一杯羹？"

于是他提出了"伟大的平行线"：与其模拟字符串，不如模拟下一个物理世界状态；然后通过行动微调（Action Fine-Tuning）将对齐到真实机器人所需的仿真薄片上；最后让强化学习走完最后一英里。如果你打不过他们，就加入他们。

模型革命：从 VLA 到 WAM——安息吧，VLA

过去三年，机器人学被视觉语言行动模型（VLA）主导，如 PaLM、Goot 等。这类模型假设预训练由 VLA 完成，然后简单地在上面嫁接一个行动头（Action Head）。但 Jim 犀利地指出，这些模型实际上是 LVA——大多数参数都奉献给了语言，语言是第一公民，视觉和行动是二等公民。VLA 擅长编码知识和名词，却不擅长处理物理和动词——头重脚轻，重心偏错了地方。

他展示了一个经典例子：让机器人"把可乐罐移到 Taylor Swift 的照片旁"。机器人从未见过 Taylor Swift，但它确实能泛化——然而，这并非我们真正需要的预训练能力。

那么第二种预训练范式是什么？Jim 调侃道，答案竟是"AI 视频垃圾"（AI video slop）。他展示了 VEO3 的生成结果：这些视频模型在内部学会了模拟下一个世界状态——重力、浮力、光照、反射、折射，所有这些都不是硬编码进去的，而是通过大规模预测下一帧像素涌现出来的物理。甚至连视觉规划也涌现出来：VEO 通过向前运行像素空间中的仿真来解迷宫。Jim 特别指出了一个令人捧腹的例子——VEO3 发现"如果你没在看，几何学就是可选的"。

基于此，Jim 推出了 Dreamer：一种新型策略模型，能够向未来"做梦"几秒并据此行动。由于电机动作是高维连续信号，看起来就像像素一样，Dreamer 可以联合解码下一个世界状态和下一个动作。结果是，它能够零样本（Zero-shot）解决训练中从未见过的任务和动词。当机器人执行时，研究人员可以可视化它在"梦"什么——视频预测准确，动作就成功；视频产生幻觉，动作就失败。 视觉和行动终于成为了第一公民。

Jim 为这个新模型类别取名世界行动模型（World Action Model, WAM），然后幽默地说："让我们为亲爱的朋友 VLA 默哀片刻。它们曾很好地服务了我们。安息吧。世界行动模型万岁。"

数据策略：从遥操作的黄金时代到自我中心视频

Jim 展示了一张照片——英伟达首席科学家 Bill Dally 正在实验室里操作遥操作设备。他调侃道："考虑到 Bill 的薪水，这可能是我们数据集中有史以来最昂贵的遥操作轨迹。"

过去三年是遥操作（Teleoperation）的黄金时代——VR 头盔、极低延迟的流传输、看起来像中世纪刑具的复杂装备。然而，遥操作有一个根本性的物理上限：每个机器人每天最多 24 小时，实际上更像是 3 小时——而且只有在"机器人之神"慈悲的时候才有。

如何做得更好？UMI（通用操作接口，Universal Manipulation Interface） 是一个看似简单却极具颠覆性的想法：把机器人执行器戴在自己的手上，直接作为人类收集数据，而机器人的其余部分退出循环。Jim 称 UMI 可能是机器人数据领域最伟大的论文之一，催生了两家独角兽创业公司。

去年，他们更进一步设计了 Dex-UMI——一种与五指灵巧手一对一映射的外骨骼。Jim 展示了一个对比：左边是人类直接收集数据（最快），右边是遥操作（极慢且成功率低），中间是直接穿戴外骨骼收集数据。用这些数据训练的机器人策略实现了完全自主操作，且零遥操作数据——他们打破了"每个机器人每天 24 小时"的诅咒。

但 Jim 追问：这就够了吗？现场有人开特斯拉或 Waymo 吗？当你驾驶时，你实际上在为世界上最大的物理数据飞轮做贡献——而你甚至感觉不到，因为 FSD 的数据上传是一个环境过程。相比之下，穿戴 UMI 或数据手套仍然很麻烦、具有侵入性。

我们需要一个 FSD 的等价物。 数据收集必须退居幕后，这样才能捕捉到人类在所有行业、所有经济活动中的全部灵巧性。

于是 Jim 推出了 Ego-Exo（自我-外我尺度）：99.9% 的训练基于人类自我中心视频（Egocentric Video）。结果是一个端到端的策略，直接从相机像素映射到 22 自由度的高灵巧度机器人手——完全自主。Ego-Exo 在 21,000 小时的野外人类自我中心数据上进行预训练，零机器人数据，预训练期间仅预测手关节和手腕姿态。然后，行动微调只收集了 50 小时高精度动捕手套数据和4 小时遥操作数据——不到训练总量的 0.1%。

凭借这些，Ego-Exo 能够泛化到非常灵巧的任务，如分拣卡片、操作注射器转移液体——"也许有一天我们会有机器人家用护士"。而且，在测试时仅需一次演示（One-shot）就能学习不同的叠衣策略。

这篇论文最迷人的发现是：他们发现了灵巧性的神经缩放定律（Neural Scaling Law）——预训练时数与最优验证损失之间存在清晰的对数线性关系，这是在语言模型原始神经缩放定律出现六年之后。

Jim 将所有数据策略绘制在一张图表上：X 轴是对机器人硬件的对齐程度，Y 轴是可扩展性。遥操作最不可扩展；数据穿戴设备可达数十万小时；而自我中心视频——如果能像 FSD 那样运转飞轮——在未来一年左右轻松达到 1000 万小时。Jim 预测：未来一到两年，遥操作将降到几乎可忽略不计的量；然后会出现针对不同硬件和用例定制设计的数据穿戴设备组合；最终，机器人学的主食将是自我中心视频。他再次幽默地说："为我们亲爱的朋友遥操作默哀。安息吧。传感化人类数据万岁。"

外环：仿真与 Dream Dojo

Jim 接着问：注意到数据策略上的"两个环"了吗？外层是什么？所有前沿实验室都在投入大量预算获取数百万编程环境来做强化学习。机器人学也一样——迫切需要大规模扩展环境。你可以直接在真实机器人上做 RL，Jim 的实验室确实用它把某些任务推到了接近 100% 的成功率，可以实现数小时的连续操作。

但不能只有一百万机器人才能得到一百万环境。

一种方法是：用 iPhone 拍一张照片，通过 3D 世界扫描管线提取所有物体，然后自动合成到经典物理模拟器中——所有物体在扫描后都是可交互的。然后可以在仿真中无限增强，生成"数字表亲"（Digital Cousins）。这样，iPhone 就变成了口袋世界扫描仪。这个流程被称为"真实到仿真再到真实"（Real to Sim to Real）。

但这种方法仍然依赖经典图形引擎。能做得更好吗？

Dream Dojo——Jim 团队对视频世界模型的演绎，将其转变为完整的神经模拟器。Dream Dojo 将连续动作信号作为输入，实时输出下一帧 RGB 图像和传感器状态。你所看到的每一个像素都不是真实的。 Dream Dojo 通过纯数据驱动的方法捕捉和学习不同机器人的力学特性——没有物理方程，没有图形引擎。

于是机器人学的后训练新范式是：大规模并行 RL 系统，运行在少数真实机器人站上、大量运行世界扫描的图形核心上、以及大量运行世界模型的推理计算上。正如那个方程式：计算 = 环境 = 数据。或者用黄仁勋的话说："买得越多，省得越多。"

终局：还有三个成就等待解锁

Jim 喜欢把他的研究看作在《文明》游戏科技树上解锁成就。机器人学还有三个成就等待解锁，之后他就可以退休了。

第一个：通过物理图灵测试（Physical Turing Test）。 在广泛的活动范围内，你无法区分是人类还是机器人在执行任务。物理图灵测试是关于"单位能量输入与单位劳动输出"的。Jim 看着机器人不太优雅的姿态说："可能还需要 2 到 3 年。"

第二个：物理 API（Physical API）。 拥有一整队机器人，可以像其他软件一样通过 API 和命令行来配置，将来或许由 Opus 9.0 来编排。有了物理 API，就能实现熄灯工厂（Lights-out Factories）——本质上是原子的打印机，输入是 Markdown 文件，输出是完全组装好的产品，全自主运行。还有自动化科学发现的湿实验室。

最后一个：物理自动研究（Physical Auto Research）。 机器人开始设计、改进和建造自身的下一代版本，远远超越人类的可能。

这太科幻了吗？Jim 给出一个时间线：AI 社区用了 14 年——从 2012 年 AlexNet 的第一次前向传播（一个勉强能区分猫和狗的模型），到 2026 年的 AI Ascent（讨论智能体自动研究）。再加 14 年——2040 年。技术不是线性进步，而是指数级进步。Jim 以 95% 的确信度说：我们将在 2040 年到达终局的终点。

他的结语令人动容："如果你相信机器人学，机器人学也会相信你。我们这一代人，出生得太晚以至于无法探索地球，出生得太早以至于无法探索星空——但我们恰好出生在解决机器人学问题的时代。"