Phaidra 创始人 Jim Gao 谈用强化学习构建第四次工业革命

摘要
Jim Gao,Phaidra 的创始人兼 CEO,曾是 DeepMind Energy 的负责人,领导了 AlphaGo 式强化学习(Reinforcement Learning, RL)在现实世界中最早、也是为数不多的应用之一——用 RL 管理 Google 的数据中心,实现了惊人的 40% 节能。在与红杉资本合伙人 Sonya Huang 和 Pat Grady 的对话中,Jim 追溯了他作为一名机械工程师如何通过 Andrew Ng 的机器学习课程自学编程,并向 DeepMind 联合创始人 Mustafa Suleyman 发送了一封主题为"强化学习+数据中心=很棒?"的邮件,由此开启了这段旅程。核心洞见在于:围棋的胜负与工业设施的运行优化本质上是同一类问题——都有目标函数、可操控的动作和必须遵守的约束。Phaidra 正在将这项技术产品化,为制药、数据中心等行业的客户部署 AI 虚拟工厂操作员,实时做出数千个决策。Jim 强调,AI 的真正价值不在于自动化例行任务,而在于创造力——发现人类专家未曾知晓的新知识。他讨论了 RL 与 Transformer 的互补关系、电网平衡作为 AI 应对气候变化最大杠杆的潜力,并分享了 DeepMind 期间的深刻教训:将技术转化为产品需要比技术本身多百倍千倍的努力。
正文
一封改变命运的邮件
Jim Gao 的职业生涯起点并非 AI 研究,而是机械工程与环境系统工程。他在 Google 负责设计并运营大型数据中心——这些设施消耗数十亿美元的电力,因此能源效率是核心关切。业余时间,他通过 Andrew Ng 的机器学习入门课自学了编程,并开始在数据中心的庞大数据集上尝试应用机器学习技术。
2016 年,AlphaGo 击败李世石的消息震撼了全球。Jim 在凌晨三点观看比赛,被深深吸引。他的核心洞见极为简洁:如果 DeepMind 的 AI 能够击败世界上最聪明的人类围棋选手,那么同样可以训练 AI 去玩另一个游戏——最小化 Google 数据中心的 PUE(电源使用效率)。游戏有目标函数、有操作动作、有必须遵守的约束,而运行数据中心的物理系统恰恰具备这三大要素。
Jim 向当时即将成为他老板的 Mustafa Suleyman 发送了一封主题为"强化学习+数据中心=很棒?"的邮件。Mustafa 两周后便带着一支 DeepMind 团队飞抵 Mountain View,双方开始具体探讨如何将 RL 应用于数据中心的控制与优化。这也是 Jim 结识联合创始人 Vedavyas(原 AlphaGo 项目工程师)的契机。
从怀疑到信服:第一次亲眼见证 AI 的创造力
项目启动时,Jim 自己也不知道是否真的能成功。概念上说得通,但实际效果如何无人知晓。他至今清晰记得系统首次上线的那一刻——AI 开始发出控制指令,能耗曲线应声下降。
更令团队震撼的是两点:第一,AI 做出的许多决策是反直觉的,Jim 作为设计了这套系统的人,本应是领域专家,但 AI 却教会了他关于这套系统的新知识;第二,这些节能是纯粹的帕累托改进——AI 完全遵守了工程师设定的所有温度、安全约束,没有牺牲任何性能,纯粹靠更智能地组合操作实现了 40% 的节能。
这让 Jim 成为这项技术的坚定信徒。他从中领悟到,AI 的真正威力不在于自动化——那只是浅层应用——而在于创造力:从原始数据中发现此前不存在的知识。正如 AlphaGo 帮助李世石——一位巅峰 ELO 评分已停滞十年的人类冠军——开始再度提升棋力一样,AI 在复杂系统中的价值是帮助人类突破认知的极限。
工业设施的 AI 准备度鸿沟
离开 Google 的"巢穴"后,Phaidra 团队经历了"粗鲁的觉醒"。Google 在数据基础设施方面是一个异常值——数据质量极高、易于访问、存储完整。而现实世界中的工业客户,即使是拥有数十亿美元设施的大型企业,往往连数据存储都不完善。许多客户仅保存 90 天或六个月的历史数据,因为它们"本来也不用这些数据做什么"。
Jim 将其总结为 AI 就绪度(AI Readiness)的阶梯:传感器部署→数据存储→数据清洗→数据可访问性(流式+批量历史)。Phaidra 的客户遍布各个梯度,团队需要帮助客户完成这段"AI 就绪度之旅",才能真正让 RL 系统发挥作用。
在控制层面,Phaidra 的策略是在现有工业控制系统之上叠加一层云端智能层——不引入新硬件、不增加新传感器。现有系统基于 1980 年代"第三次工业革命"的技术,由数百万行硬编码的 if-then 规则组成,这些规则自设定后几乎不再更新。Phaidra 的 AI 充当"战场上的将军"——拥有全局视野,每分钟分析约 10,000 个趋势数据点,向本地 BMS/PLC 系统发出优化指令。
默克制药:首秀公开客户
录制这期播客的同一周,默克(Merck)制药成为 Phaidra 首个公开客户。双方已秘密合作两年,Phaidra 的 AI 系统自主控制默克位于宾夕法尼亚州的一座占地 500 英亩的疫苗生产设施——真正意义上的"任务关键型"复杂系统,拥有 62,000 吨冷却能力、四个互联的大型冷却站、数百台相互影响的机器。
初步测试显示,仅在一个冷却站上就实现了 16% 的节能。但 Jim 总是提醒客户:不要过度关注初期的节能幅度。RL 是一个闭环自学习系统——它会持续变好。也许起步时是 1% 或 5%,但随着系统不断学习,它会逐步接近最优。更重要的是,一旦达到最优,它会保持最优——与硬编码规则系统不同,后者在设备老化、管道腐蚀、热交换器结垢后性能会持续下降,而自学习系统会随设施变化而自适应。
RL 与 Transformer 的互补
Jim 对 RL 与 Transformer 架构的关系有着深刻的分析。所有智能系统都需要三个标志性能力:深度理解所处环境、记忆能力、以及规划与推理能力。Transformer 在第一个能力上表现优异——可以处理海量结构化和非结构化数据来学习世界模型——但其知识主要基于相关性而非因果性。对于 Phaidra 这类直接控制物理系统的应用,因果性是刚需:必须知道为什么 AI 在做某件事、为什么不做另一件事、如何强制某种已知正确的行为。
RL 系统则在规划与推理方面尤为强大——能够规划长序列动作并学习精细的控制策略。两者的交汇点极具潜力:用 Transformer 学习价值函数或世界模型,RL 在此基础上进行策略学习。但没有因果性这一环,直接切入工业控制应用仍然极具挑战。
电网平衡:AI 应对气候变化的最大杠杆
Jim 认为,RL 最激动人心的未来应用之一是电网平衡。数据中心已经是巨大的电力负荷——目前占美国约 1.5-2% 的电力消耗(国际能源署预测到 2030 年将升至 9%),在爱尔兰已达 22%(预计 2030 年将达 37%)。如果没有智能协调,这些负荷只会加剧电网的不稳定性。
随着可再生能源渗透率的提高,电力供给侧变得日益非随机化——"调度太阳能"是不可能的。而需求侧同样存在波动。结果是大量"旋转备用"容量——天然气涡轮机在空转状态等待,以防万一。讽刺的是,可再生能源越多,所需的缓冲也越多(德国的失败能源转型就是明证——在去核化的同时大幅提升可再生能源比例,最终反而不得不新建更多化石燃料电厂来缓冲)。
如果能用 AI 智能协调数据中心的负荷——在碳排放最低、电网最需要平衡的时刻调度非延迟敏感的算力工作——其影响将是深远的。这是 Jim 所期待的 AI 与物理世界基础设施的真正交汇点。
给创业者的建议
Jim 回顾了 DeepMind 经历中最重要的教训:技术和产品是两件截然不同的事。将技术转化为产品需要比开发技术本身多百倍甚至千倍的努力。这也是他和联合创始人决定离开 DeepMind 创立 Phaidra 的核心原因——他们渴望产生真正的实际影响。
对于考虑创业的人,Jim 给出两条建议:第一,一定要有联合创始人——创业是一场持续的过山车式情感波动,有伙伴分担工作量并互相支持至关重要。第二,风险比你想象的要小——即使失败,你通过学习新技能(理解如何将技术转化为产品)而提升的个人价值,会让你在任何组织中比离开时更有竞争力。