训练通用机器人执行任何任务:Physical Intelligence的Karol Hausman与Tobi Springenberg

cover>

摘要

本期节目对话Physical Intelligence(简称PI)的联合创始人Karol Hausman和Tobi Springenberg。Physical Intelligence正在构建机器人基础模型(Robotic Foundation Model),其愿景是让任何机器人执行任何任务。他们分享了机器人领域的历史演进——从手工编写规则到分而治之的感知-规划-控制管线,再到端到端(End-to-End)学习方法,以及当前基于视觉语言模型(VLM)加动作专家的架构。核心突破是Pi Star 0.6模型,该模型首次展现了机器人通过强化学习(Reinforcement Learning,RL)从自身经验中学习的能力,在制作咖啡、折叠衣物和折叠纸盒等任务上实现了2倍以上的效率提升和连续13小时的稳定运行。对话还深入探讨了模拟与真实世界训练的根本差异、操作(Manipulation)vs移动(Locomotion)的技术挑战、以及机器人基础模型的商业化和部署前景。

正文

智能是瓶颈,而非硬件

Karol开门见山地指出机器人领域的核心矛盾:"如果我们看看机器人历史,非常清楚——我们一直在智能上遇到瓶颈。"10多年前就存在可以遥控打扫整个房子的机器人,但关键前提是"如果由人类操作(teleoperated),硬件完全有能力做各种事情"。因此,Physical Intelligence的成立逻辑是专注于解决智能瓶颈——"如果我们解决了这个瓶颈,机器人就能真正实现;以任何其他方式做,都不会在这个瓶颈上取得同样大的进展。"

关于硬件进步是否正在创造新的"为什么是现在"时刻,Tobi解释道:"更复杂的硬件并没有解决瓶颈。它提高了天花板,但能力的地板(floor)我们还未达到。"关键不在于机器人如何移动自己的身体,而在于"世界如何反应——你实际上正在改变周围的世界。"

能力、泛化、性能:三步路线图

PI将挑战分解为三个渐进维度:

能力(Capability):只要你能为某个任务或机器人收集数据,模型就应该能学习并自动化该任务。PI Zero(约一年前发布)已基本实现这一点。

泛化(Generalization):机器人进入从未见过的环境(如新家庭)后仍能正常工作。"我们知道的唯一泛化方法是通过数据多样性。"PI-0.5(2025年4月发布)展示了机器人首次进入新家庭后能够操作的初步能力。

性能(Performance):Pi Star 0.6的重点。模型的可靠性、速度和长时间运行能力——"如果每两次尝试就失败一次,那是不可部署的。"Karol透露,他们原本预计需要5年才能达到商业部署的性能阈值,但实际上"大约两个月前就做到了"。

VLM+动作专家的架构

当前的PI模型架构类似于视觉语言模型(VLM):图像和文本输入,文本和动作输出。"这是一个相当大的Transformer模型,参数量达到数十亿,"Tobi解释道。模型在PI自有的机器人数据和互联网数据上进行预训练,但"目前的训练以机器人数据为主"。独特之处在于"动作专家"——在VLM基础上新增的专门输出机器人控制指令的模型组件。

关于架构是否会根本性改变,Tobi坦承这可能。"在未来五六年,我们可能会回头看,说'哦,当时用的那个VLM骨架已经变了'。但我认为数据的收集和注入方式将保持类似。"

端到端学习的崛起

两位联合创始人花了大量篇幅解释机器人领域的方法论演变。传统方法将机器人问题分解为感知、规划、控制等子问题,各自由不同社区分别研究。但这套方法的失败之处恰恰在于预设的模块接口——"感知给你物体位置,规划给你轨迹,控制执行——这些接口是出问题的环节。"

端到端方法直接"从像素到动作",由学习算法自行决定如何(甚至是否需要)拆分这些组件。但纯端到端需要海量数据,而"通过第一人称动作数据集获取常识非常困难"。因此,PI引入了预训练于互联网数据的VLM,利用其已有的世界知识,再在上面添加动作组件。

Pi Star 0.6:从经验中学习

Pi Star 0.6的核心创新是强化学习(RL)——机器人从自身经验中学习。流程如下:

  1. 从人类演示(Demonstration)数据训练的策略开始
  2. 部署机器人执行真实任务
  3. 人类提供奖励信号(成功/失败)和修正
  4. 训练一个"价值函数"(Value Function)来预测当前状态下最终成功或失败的概率
  5. 利用价值函数对数据点进行加权——鼓励成功路径,抑制失败路径

一个惊人的实例:机器人在压咖啡粉时力度过大,"几乎把自己从桌子上抬起来"。仅通过30到50个修正样本,"模型就开始变得更加轻柔,做正确的事"——这在数百万条预训练数据的背景下显示了RL修正的高效性。

真实世界RL vs 模拟

PI明确选择了"真实世界优先"而非模拟(Simulation)策略。Tobi用一个具体例子说明原因:机器人在构建巧克力包装盒时,新一批次的纸板穿孔不完全,两张纸板粘在了一起。机器人抓起后桌面上就出现了两张纸板——"这在模拟中不会发生,因为你会写一个漂亮的模拟器,每次只生成单独一张纸板。但现实中你必须处理这个问题。"

关于操作vs移动的根本差异:在移动任务中,最大的挑战是建模自己的身体——"如果你能在模拟中完美建模自己的机器人,你基本上就成功了,而且只需做一次。"但在操作中,你必须"建模整个世界中的每一个可能交互的物体和每一个可想象的任务",这就是规模瓶颈。

强化学习中的泛化问题

在RL细调过程中,模型在特定任务上的表现确实在提升(咖啡制作2倍加速、连续运行13小时),但当前阶段RL带来的进步更多是任务特定的——"学习更好的压咖啡粉不会让你折叠盒子更好。"然而,价值函数的训练似乎从跨任务数据中获益:"我们看到了某种预知能力——在咖啡机滤杯插入角度不对的30到40步之前,价值函数就开始降低预测值,说'这个特定尝试不太妙'。"

机器人的GPT时刻

两位联合创始人表达了对整个AI领域进展的敬畏。"这个能端到端训练的通用学习算法,你喂给它数据,它居然能理解——这简直令人难以置信。""我们坐在那里看着机器人连续制作咖啡13个小时或者折叠衣物4个小时——亲眼看到这些改变了你对模型的看法。这不是为了拍一个完美视频而重复拍摄的演示,这是真正在做真实的事情,而且是全自动的。"

他们观察到机器人在驾驶、手术、农业、无人机飞行等看似不相干的领域间惊人地泛化——"关于物理智能(Physical Intelligence),有些事情我们还不完全理解,使得这些模型能够在驾驶和制作咖啡和飞行无人机之间泛化,尽管它们看起来如此不同。"

商业化的未定之局

关于业务模式,PI坦承"真正答案是还不知道"。他们正专注于"先把技术做到易于部署的程度,扩展应用范围"。Karol提醒道:"机器人创业公司的历史往往是这样:你开发技术一段时间,怀揣宏大愿景,但一旦选定一个应用,你就被困住了——开始走捷径,做特殊用途的解决方案,很快你就变成了一家'仓库取放机器人'公司。我们真的想避免那个未来。"