物理图灵测试：Jim Fan 谈英伟达的具身 AI 路线图

cover Sequoia Capital · 2025-05-07🎬 在 YouTube 观看原视频 →>

摘要

Jim Fan 在本演讲中提出了"物理图灵测试"的概念——一种评判机器是否能在物理世界中达到人类水平的实用标准。他指出，传统的大语言模型研究人员抱怨"数据枯竭"是奢侈的烦恼，因为具身 AI（Embodied AI）领域甚至连所谓的"化石燃料"都没有。机器人数据的采集依赖昂贵且缓慢的遥操作（Teleoperation），无法规模化。英伟达的解决方案是逃离物理世界，进入仿真（Simulation）。通过三大范式的演进——仿真 1.0（数字孪生）、数字表亲（Digital Cousin）、仿真 2.0（神经世界模型，即基于视频扩散模型直接生成像素世界）——英伟达正在构建能够指数级扩展机器人数据的"核能"。最终目标是建立"物理 API"，让软件拥有操纵物理世界的能力，开启一个物理技能经济的未来。Jim Fan 预测，当物理图灵测试被悄然跨越的那一刻，将只是又一个平凡的星期二。

正文

物理图灵测试：一个被忽视的里程碑

Jim Fan 以一种引人深思的方式开场。他提到最近一篇博客文章："我们通过了图灵测试，但没有人注意到。"图灵测试曾被视为计算机科学的圣杯——你无法区分一段对话来自人类还是机器。然而，当这一天真正到来时，人们却在为 O3 Mini 多思考了几秒钟、或者 Claude 无法调试某段复杂的代码而抱怨不已。我们将每一个大语言模型（Large Language Model, LLM）的突破都当作"又一个普通的星期二"轻轻放过。

于是，他提出了一个更为朴素但更具挑战性的标准——物理图灵测试（Physical Turing Test）。设想这样一个场景：你在周日晚举办了一场黑客马拉松派对，家里一片狼藉，伴侣在对你发火。你希望有谁能在周一早上收拾好这一切，并为你准备好一顿烛光晚餐。当你回到家，看到整洁的沙发和温暖的晚餐时，你无法判断这是人类做的，还是机器做的。这就是物理图灵测试。

然而，现实距离这个目标还很远。Jim Fan 展示了一系列令人忍俊不禁的机器人失败案例：一个试图"上班"的机器人摔倒了，另一个试图做早餐的机器人虽然正确识别了牛奶，却把麦片洒得到处都是，还尝试用勺子喂食——他戏称这是"VIP 体验"。

具身 AI 的瓶颈——燃烧"人力燃料"

大语言模型研究者经常抱怨预训练数据即将耗尽，Ilya Sutskever 甚至将互联网数据称为 AI 的"化石燃料"。但 Jim Fan 直言，如果你是机器人学家，才会真正意识到 LLM 研究者有多"娇惯"。在具身 AI 领域，你连化石燃料都没有。

在英伟达总部的咖啡馆里，研究团队架设了人形机器人（Humanoid Robot），通过遥操作（Teleoperation）采集数据。操作员佩戴 VR 头盔，将手部姿态实时映射到机器人身上，教它从烤面包机中取出面包、淋上蜂蜜。但这个过程极其缓慢且痛苦——机器人产生的数据是连续值关节控制信号，无法从互联网、维基百科、YouTube 或 Reddit 上抓取。

他称之为"人力燃料"——比化石燃料更糟糕。而且这最多每个机器人每天 24 小时，实际上远少于此，因为人类会疲劳，机器人比人类更容易疲劳。

仿真 1.0：逃离物理世界的数字孪生

解决方案是离开物理世界，进入仿真（Simulation）。英伟达训练了一只机器人手在仿真中完成超人级的灵巧任务，例如转笔——Jim Fan 坦承自己从童年起就放弃了转笔技能，因此很高兴至少他的机器人在仿真中比他本人更强。

这一方案的两个核心原则：

万倍加速：在单个 GPU 上并行运行 10,000 个物理仿真环境。
域随机化（Domain Randomization）：这 10,000 个环境不能完全相同，必须变化重力、摩擦、重量等参数。

其工作原理是：如果一个神经网络能够控制机器人在数百万个不同世界中成功执行任务，那么第一百万零一个世界——即我们的物理现实——很可能也在它的控制范围内。换言之，物理世界是仿真训练分布的"分布内"样本。

在此基础上，英伟达构建了数字孪生（Digital Twin）——机器人和环境的一对一复刻。仿真训练的结果可以直接零样本迁移（Zero-Shot Transfer）到真实世界。人形机器人在仅两小时的仿真时间里经历了相当于 10 年的训练，学会了行走。进一步地，团队解决了全身控制（Whole Body Control）问题，使机器人能够追踪任意姿态、任意关键点、任意速度向量，并在 10,000 个并行的仿真环境中训练后直接迁移至真实机器人。

一个令人震撼的数据：完成所有这些敏捷运动所需的神经网络只有 150 万个参数——不是 15 亿，是 150 万。150 万个参数足以捕捉人体潜意识层面的运动处理能力。

数字表亲：从手工作坊到生成式仿真

经典的数字孪生范式的最大缺陷在于：你需要人工构建一个数字孪生——搭建机器人模型、构建环境，每件事都需要人工投入，繁琐且不可扩展。

英伟达的下一步是开始生成仿真世界的各个部分。3D 资产由 3D 生成模型产出，纹理来自 Stable Diffusion 或任意扩散模型，场景布局由语言模型通过编写 XML 生成。这些组件被整合进一个名为 RoboCasa 的大规模合成式仿真框架——除了机器人本体，其他一切都是生成的。

这一范式的关键突破在于数据倍增。人类操作员在仿真中进行一次遥操作演示，随后通过环境生成将其扩展为 n 个变体，再通过运动生成扩展为 m × n 个变体——Jim Fan 承诺"这是你今天需要做的唯一一道数学题"。

他们称这一范式为数字表亲（Digital Cousin）。它不是精确的数字孪生，但"足够接近"。虽然纹理尚不够真实，但从功能角度看已足够有效。

仿真 2.0：视频扩散模型作为神经世界模型

演讲的高潮部分，Jim Fan 揭示了一个惊人的事实：他在开场播放的"真实"机器人视频中没有一颗像素是真实的——完全由一个定制模型生成。

他们采用一个通用开源视频生成模型，在英伟达机器人实验室采集的领域数据上进行微调（Fine-tuning）。然后，你只需用自然语言提示模型去想象不同的未来场景——即"反事实模拟"。同一个初始帧，输入不同的语言指令，视频模型会生成不同的运动轨迹，而这个运动在真实世界中从未发生过。

视频扩散模型不在乎场景有多复杂——无论是流体还是软体物体都不构成障碍。它让机器人手指弹奏尤克里里琴，即使硬件实际上不支持——因为模型在预训练阶段看过数百万人类弹尤克里里琴的视频，并将这一模式迁移到了机器人身上。

Jim Fan 称此为仿真 2.0——数字游牧族（Digital Nomad）。视频扩散模型本质上是数亿互联网视频的压缩版，构成了一个多重宇宙仿真。机器人被放置在"梦境空间"中，可以在其中与万物交互——"一切，无处不在，全部同时发生"（Everything Everywhere All at Once）。

具身扩展法则与物理 API 的未来

Jim Fan 提出了具身扩展法则（Embodied Scaling Law）：经典仿真（Sim 1.x 系列）随着算力扩展会碰到多样化瓶颈，因为手工构建的系统多样性终有上限；而神经世界模型（Sim 2.0）则能随算力指数级扩展——这就是神经网络超越经典图形工程师的拐点。两者的结合，将是推动下一代机器人系统扩展的"核能"。

所有这些数据被输入一个视觉-语言-动作模型（Visual Language Action Model），该模型接收像素和指令，输出运动控制信号。其成果是英伟达在 GTC 大会上开源发布的 Groot N1 模型——能够抓取香槟杯、执行工厂任务、实现多机器人协调操作。未来的模型系列也将继续开源，以贯彻黄仁勋"开源与具身 AI 民主化"的愿景。

最终，Jim Fan 展望了具身 AI 的终极形态：物理 API（Physical API）。人类五千年文明史中，制造工具和从事体力劳动的方式几乎没有本质变化。过去 50 年，我们拥有高度专业化的机器人系统，但每次只能做一件事，且编程成本极高。未来的图景是将自动化推向所有人类劳动的领域，构建物理 API——就像 LLM API 操纵数字比特一样，物理 API 操纵的是原子和物质世界。

在物理 API 之上，将诞生全新的经济和范式：物理提示词（Physical Prompting）——如何用语言（有时语言不够用）甚至演示来教会机器人；物理应用商店和技能经济（Physical App Store & Skill Economy）——米其林主厨不必每天进厨房，他可以教机器人做菜，然后以服务形式交付米其林级的晚宴。

他再次引用黄仁勋的话："一切会动的东西都将变得自主（Everything that moves will be autonomous）。"

Jim Fan 以充满诗意的画面结束演讲：有一天，当你回到家，看到的将是整洁的沙发和烛光晚餐，你的伴侣在对你微笑，而不是为脏衣服对你发火。那时候你上个月买的两台人形机器人正运行着 Groot N7，它们已经悄然融入背景——就像一种环境智能（Ambient Intelligence）。你甚至不会注意到我们通过物理图灵测试的那一刻。那一天，将只是又一个普通的星期二。