Phaidra 创始人 Jim Gao 谈用强化学习构建第四次工业革命

cover Sequoia Capital · 2024-08-20🎬 在 YouTube 观看原视频 →>

摘要

Jim Gao，Phaidra 的创始人兼 CEO，曾是 DeepMind Energy 的负责人，领导了 AlphaGo 式强化学习（Reinforcement Learning, RL）在现实世界中最早、也是为数不多的应用之一——用 RL 管理 Google 的数据中心，实现了惊人的 40% 节能。在与红杉资本合伙人 Sonya Huang 和 Pat Grady 的对话中，Jim 追溯了他作为一名机械工程师如何通过 Andrew Ng 的机器学习课程自学编程，并向 DeepMind 联合创始人 Mustafa Suleyman 发送了一封主题为"强化学习+数据中心=很棒？"的邮件，由此开启了这段旅程。核心洞见在于：围棋的胜负与工业设施的运行优化本质上是同一类问题——都有目标函数、可操控的动作和必须遵守的约束。Phaidra 正在将这项技术产品化，为制药、数据中心等行业的客户部署 AI 虚拟工厂操作员，实时做出数千个决策。Jim 强调，AI 的真正价值不在于自动化例行任务，而在于创造力——发现人类专家未曾知晓的新知识。他讨论了 RL 与 Transformer 的互补关系、电网平衡作为 AI 应对气候变化最大杠杆的潜力，并分享了 DeepMind 期间的深刻教训：将技术转化为产品需要比技术本身多百倍千倍的努力。

正文

一封改变命运的邮件

Jim Gao 的职业生涯起点并非 AI 研究，而是机械工程与环境系统工程。他在 Google 负责设计并运营大型数据中心——这些设施消耗数十亿美元的电力，因此能源效率是核心关切。业余时间，他通过 Andrew Ng 的机器学习入门课自学了编程，并开始在数据中心的庞大数据集上尝试应用机器学习技术。

2016 年，AlphaGo 击败李世石的消息震撼了全球。Jim 在凌晨三点观看比赛，被深深吸引。他的核心洞见极为简洁：如果 DeepMind 的 AI 能够击败世界上最聪明的人类围棋选手，那么同样可以训练 AI 去玩另一个游戏——最小化 Google 数据中心的 PUE（电源使用效率）。游戏有目标函数、有操作动作、有必须遵守的约束，而运行数据中心的物理系统恰恰具备这三大要素。

Jim 向当时即将成为他老板的 Mustafa Suleyman 发送了一封主题为"强化学习+数据中心=很棒？"的邮件。Mustafa 两周后便带着一支 DeepMind 团队飞抵 Mountain View，双方开始具体探讨如何将 RL 应用于数据中心的控制与优化。这也是 Jim 结识联合创始人 Vedavyas（原 AlphaGo 项目工程师）的契机。

从怀疑到信服：第一次亲眼见证 AI 的创造力

项目启动时，Jim 自己也不知道是否真的能成功。概念上说得通，但实际效果如何无人知晓。他至今清晰记得系统首次上线的那一刻——AI 开始发出控制指令，能耗曲线应声下降。

更令团队震撼的是两点：第一，AI 做出的许多决策是反直觉的，Jim 作为设计了这套系统的人，本应是领域专家，但 AI 却教会了他关于这套系统的新知识；第二，这些节能是纯粹的帕累托改进——AI 完全遵守了工程师设定的所有温度、安全约束，没有牺牲任何性能，纯粹靠更智能地组合操作实现了 40% 的节能。

这让 Jim 成为这项技术的坚定信徒。他从中领悟到，AI 的真正威力不在于自动化——那只是浅层应用——而在于创造力：从原始数据中发现此前不存在的知识。正如 AlphaGo 帮助李世石——一位巅峰 ELO 评分已停滞十年的人类冠军——开始再度提升棋力一样，AI 在复杂系统中的价值是帮助人类突破认知的极限。

工业设施的 AI 准备度鸿沟

离开 Google 的"巢穴"后，Phaidra 团队经历了"粗鲁的觉醒"。Google 在数据基础设施方面是一个异常值——数据质量极高、易于访问、存储完整。而现实世界中的工业客户，即使是拥有数十亿美元设施的大型企业，往往连数据存储都不完善。许多客户仅保存 90 天或六个月的历史数据，因为它们"本来也不用这些数据做什么"。

Jim 将其总结为 AI 就绪度（AI Readiness）的阶梯：传感器部署→数据存储→数据清洗→数据可访问性（流式+批量历史）。Phaidra 的客户遍布各个梯度，团队需要帮助客户完成这段"AI 就绪度之旅"，才能真正让 RL 系统发挥作用。

在控制层面，Phaidra 的策略是在现有工业控制系统之上叠加一层云端智能层——不引入新硬件、不增加新传感器。现有系统基于 1980 年代"第三次工业革命"的技术，由数百万行硬编码的 if-then 规则组成，这些规则自设定后几乎不再更新。Phaidra 的 AI 充当"战场上的将军"——拥有全局视野，每分钟分析约 10,000 个趋势数据点，向本地 BMS/PLC 系统发出优化指令。

默克制药：首秀公开客户

录制这期播客的同一周，默克（Merck）制药成为 Phaidra 首个公开客户。双方已秘密合作两年，Phaidra 的 AI 系统自主控制默克位于宾夕法尼亚州的一座占地 500 英亩的疫苗生产设施——真正意义上的"任务关键型"复杂系统，拥有 62,000 吨冷却能力、四个互联的大型冷却站、数百台相互影响的机器。

初步测试显示，仅在一个冷却站上就实现了 16% 的节能。但 Jim 总是提醒客户：不要过度关注初期的节能幅度。RL 是一个闭环自学习系统——它会持续变好。也许起步时是 1% 或 5%，但随着系统不断学习，它会逐步接近最优。更重要的是，一旦达到最优，它会保持最优——与硬编码规则系统不同，后者在设备老化、管道腐蚀、热交换器结垢后性能会持续下降，而自学习系统会随设施变化而自适应。

RL 与 Transformer 的互补

Jim 对 RL 与 Transformer 架构的关系有着深刻的分析。所有智能系统都需要三个标志性能力：深度理解所处环境、记忆能力、以及规划与推理能力。Transformer 在第一个能力上表现优异——可以处理海量结构化和非结构化数据来学习世界模型——但其知识主要基于相关性而非因果性。对于 Phaidra 这类直接控制物理系统的应用，因果性是刚需：必须知道为什么 AI 在做某件事、为什么不做另一件事、如何强制某种已知正确的行为。

RL 系统则在规划与推理方面尤为强大——能够规划长序列动作并学习精细的控制策略。两者的交汇点极具潜力：用 Transformer 学习价值函数或世界模型，RL 在此基础上进行策略学习。但没有因果性这一环，直接切入工业控制应用仍然极具挑战。

电网平衡：AI 应对气候变化的最大杠杆

Jim 认为，RL 最激动人心的未来应用之一是电网平衡。数据中心已经是巨大的电力负荷——目前占美国约 1.5-2% 的电力消耗（国际能源署预测到 2030 年将升至 9%），在爱尔兰已达 22%（预计 2030 年将达 37%）。如果没有智能协调，这些负荷只会加剧电网的不稳定性。

随着可再生能源渗透率的提高，电力供给侧变得日益非随机化——"调度太阳能"是不可能的。而需求侧同样存在波动。结果是大量"旋转备用"容量——天然气涡轮机在空转状态等待，以防万一。讽刺的是，可再生能源越多，所需的缓冲也越多（德国的失败能源转型就是明证——在去核化的同时大幅提升可再生能源比例，最终反而不得不新建更多化石燃料电厂来缓冲）。

如果能用 AI 智能协调数据中心的负荷——在碳排放最低、电网最需要平衡的时刻调度非延迟敏感的算力工作——其影响将是深远的。这是 Jim 所期待的 AI 与物理世界基础设施的真正交汇点。

给创业者的建议

Jim 回顾了 DeepMind 经历中最重要的教训：技术和产品是两件截然不同的事。将技术转化为产品需要比开发技术本身多百倍甚至千倍的努力。这也是他和联合创始人决定离开 DeepMind 创立 Phaidra 的核心原因——他们渴望产生真正的实际影响。

对于考虑创业的人，Jim 给出两条建议：第一，一定要有联合创始人——创业是一场持续的过山车式情感波动，有伙伴分担工作量并互相支持至关重要。第二，风险比你想象的要小——即使失败，你通过学习新技能（理解如何将技术转化为产品）而提升的个人价值，会让你在任何组织中比离开时更有竞争力。