训练通用机器人执行任何任务：Physical Intelligence的Karol Hausman与Tobi Springenberg

cover Sequoia Capital · 2026-01-06🎬 在 YouTube 观看原视频 →>

摘要

本期节目对话Physical Intelligence（简称PI）的联合创始人Karol Hausman和Tobi Springenberg。Physical Intelligence正在构建机器人基础模型（Robotic Foundation Model），其愿景是让任何机器人执行任何任务。他们分享了机器人领域的历史演进——从手工编写规则到分而治之的感知-规划-控制管线，再到端到端（End-to-End）学习方法，以及当前基于视觉语言模型（VLM）加动作专家的架构。核心突破是Pi Star 0.6模型，该模型首次展现了机器人通过强化学习（Reinforcement Learning，RL）从自身经验中学习的能力，在制作咖啡、折叠衣物和折叠纸盒等任务上实现了2倍以上的效率提升和连续13小时的稳定运行。对话还深入探讨了模拟与真实世界训练的根本差异、操作（Manipulation）vs移动（Locomotion）的技术挑战、以及机器人基础模型的商业化和部署前景。

正文

智能是瓶颈，而非硬件

Karol开门见山地指出机器人领域的核心矛盾："如果我们看看机器人历史，非常清楚——我们一直在智能上遇到瓶颈。"10多年前就存在可以遥控打扫整个房子的机器人，但关键前提是"如果由人类操作（teleoperated），硬件完全有能力做各种事情"。因此，Physical Intelligence的成立逻辑是专注于解决智能瓶颈——"如果我们解决了这个瓶颈，机器人就能真正实现；以任何其他方式做，都不会在这个瓶颈上取得同样大的进展。"

关于硬件进步是否正在创造新的"为什么是现在"时刻，Tobi解释道："更复杂的硬件并没有解决瓶颈。它提高了天花板，但能力的地板（floor）我们还未达到。"关键不在于机器人如何移动自己的身体，而在于"世界如何反应——你实际上正在改变周围的世界。"

能力、泛化、性能：三步路线图

PI将挑战分解为三个渐进维度：

能力（Capability）：只要你能为某个任务或机器人收集数据，模型就应该能学习并自动化该任务。PI Zero（约一年前发布）已基本实现这一点。

泛化（Generalization）：机器人进入从未见过的环境（如新家庭）后仍能正常工作。"我们知道的唯一泛化方法是通过数据多样性。"PI-0.5（2025年4月发布）展示了机器人首次进入新家庭后能够操作的初步能力。

性能（Performance）：Pi Star 0.6的重点。模型的可靠性、速度和长时间运行能力——"如果每两次尝试就失败一次，那是不可部署的。"Karol透露，他们原本预计需要5年才能达到商业部署的性能阈值，但实际上"大约两个月前就做到了"。

VLM+动作专家的架构

当前的PI模型架构类似于视觉语言模型（VLM）：图像和文本输入，文本和动作输出。"这是一个相当大的Transformer模型，参数量达到数十亿，"Tobi解释道。模型在PI自有的机器人数据和互联网数据上进行预训练，但"目前的训练以机器人数据为主"。独特之处在于"动作专家"——在VLM基础上新增的专门输出机器人控制指令的模型组件。

关于架构是否会根本性改变，Tobi坦承这可能。"在未来五六年，我们可能会回头看，说'哦，当时用的那个VLM骨架已经变了'。但我认为数据的收集和注入方式将保持类似。"

端到端学习的崛起

两位联合创始人花了大量篇幅解释机器人领域的方法论演变。传统方法将机器人问题分解为感知、规划、控制等子问题，各自由不同社区分别研究。但这套方法的失败之处恰恰在于预设的模块接口——"感知给你物体位置，规划给你轨迹，控制执行——这些接口是出问题的环节。"

端到端方法直接"从像素到动作"，由学习算法自行决定如何（甚至是否需要）拆分这些组件。但纯端到端需要海量数据，而"通过第一人称动作数据集获取常识非常困难"。因此，PI引入了预训练于互联网数据的VLM，利用其已有的世界知识，再在上面添加动作组件。

Pi Star 0.6：从经验中学习

Pi Star 0.6的核心创新是强化学习（RL）——机器人从自身经验中学习。流程如下：

从人类演示（Demonstration）数据训练的策略开始
部署机器人执行真实任务
人类提供奖励信号（成功/失败）和修正
训练一个"价值函数"（Value Function）来预测当前状态下最终成功或失败的概率
利用价值函数对数据点进行加权——鼓励成功路径，抑制失败路径

一个惊人的实例：机器人在压咖啡粉时力度过大，"几乎把自己从桌子上抬起来"。仅通过30到50个修正样本，"模型就开始变得更加轻柔，做正确的事"——这在数百万条预训练数据的背景下显示了RL修正的高效性。

真实世界RL vs 模拟

PI明确选择了"真实世界优先"而非模拟（Simulation）策略。Tobi用一个具体例子说明原因：机器人在构建巧克力包装盒时，新一批次的纸板穿孔不完全，两张纸板粘在了一起。机器人抓起后桌面上就出现了两张纸板——"这在模拟中不会发生，因为你会写一个漂亮的模拟器，每次只生成单独一张纸板。但现实中你必须处理这个问题。"

关于操作vs移动的根本差异：在移动任务中，最大的挑战是建模自己的身体——"如果你能在模拟中完美建模自己的机器人，你基本上就成功了，而且只需做一次。"但在操作中，你必须"建模整个世界中的每一个可能交互的物体和每一个可想象的任务"，这就是规模瓶颈。

强化学习中的泛化问题

在RL细调过程中，模型在特定任务上的表现确实在提升（咖啡制作2倍加速、连续运行13小时），但当前阶段RL带来的进步更多是任务特定的——"学习更好的压咖啡粉不会让你折叠盒子更好。"然而，价值函数的训练似乎从跨任务数据中获益："我们看到了某种预知能力——在咖啡机滤杯插入角度不对的30到40步之前，价值函数就开始降低预测值，说'这个特定尝试不太妙'。"

机器人的GPT时刻

两位联合创始人表达了对整个AI领域进展的敬畏。"这个能端到端训练的通用学习算法，你喂给它数据，它居然能理解——这简直令人难以置信。""我们坐在那里看着机器人连续制作咖啡13个小时或者折叠衣物4个小时——亲眼看到这些改变了你对模型的看法。这不是为了拍一个完美视频而重复拍摄的演示，这是真正在做真实的事情，而且是全自动的。"

他们观察到机器人在驾驶、手术、农业、无人机飞行等看似不相干的领域间惊人地泛化——"关于物理智能（Physical Intelligence），有些事情我们还不完全理解，使得这些模型能够在驾驶和制作咖啡和飞行无人机之间泛化，尽管它们看起来如此不同。"

商业化的未定之局

关于业务模式，PI坦承"真正答案是还不知道"。他们正专注于"先把技术做到易于部署的程度，扩展应用范围"。Karol提醒道："机器人创业公司的历史往往是这样：你开发技术一段时间，怀揣宏大愿景，但一旦选定一个应用，你就被困住了——开始走捷径，做特殊用途的解决方案，很快你就变成了一家'仓库取放机器人'公司。我们真的想避免那个未来。"