从数据中心到戴森球：P1 AI 通往硬件工程 AGI 之路

cover Sequoia Capital · 2025-05-27🎬 在 YouTube 观看原视频 →>

摘要

当软件工程正在经历 AI 带来的垂直起飞时，物理世界的硬件工程几乎无人问津——而这正是 P1 AI 创始人 Paul Arnaudo 决心改变的。作为前 DARPA 主任、35 岁成为空客（Airbus）史上最年轻 CTO 的硬核工程师，Paul 正在试图构建"工程 AGI"（Engineering AGI）——能够像人类工程师一样设计物理系统的 AI 代理。

这篇长达一小时的深度访谈揭示了这一宏大愿景背后的几个关键瓶颈和解决方案。首先是训练数据的匮乏：自莱特兄弟以来人类仅设计过最多约一千款飞机——远远不足以训练大模型。P1 AI 的应对策略是生成基于物理和供应链信息的大规模合成数据集，通过对设计空间进行非均匀采样（densely sample around dominant designs, sparsely at the edges），让模型理解为什么某些设计可行而另一些不可行。

其次是模型架构的联邦式设计：P1 AI 的代理"Archie"并非单一模型，而是一个由编排推理器 LLM 协调的联邦模型组合——包括图神经网络（做物理基代理模型）、几何推理器、以及一个"去英语化"的定制 LLM（专门理解物理系统的程序化表示）。这也揭示了 Paul 的进入市场策略：不是卖软件工具，而是"雇佣 Archie 作为远程初级工程师加入团队"——从数据中心冷却系统这一急性痛点切入，按每年一个数量级递增产品复杂度，最终覆盖工业系统、汽车/重型机械、航空航天和国防。

正文

为什么没人做物理世界的 AI？

Paul 以一个简单而尖锐的问题开场："在过去几年里，我反复问一个问题——为什么没有人在做帮助建造物理世界的 AI？答案一直是：训练数据。"他给出了一个直击要害的例证——如果你问一个 AI 工程师"A320 的机翼面积增加 10% 会怎么样？"，模型需要在上百万个飞机设计上训练才能回答。然而自莱特兄弟以来，即使你魔法般地拥有全部设计，最多也就一千多个——远远不够。

"这就是为什么基础模型实验室的议程上根本没有这一项，2025 年的今天依然如此。"P1 AI 正是在这个巨大空白上成立的。但 Paul 也指出，物理 AI 可以站在"编码 AI"（coding AI）的肩膀上——如果一个物理系统能够被程序化表示，那么程序合成（program synthesis）类技术就可以被应用于创建设计方案。他乐观地预计，"今年可以将技术积木拼在一起，明年就可能开始找到产品市场匹配。"

合成训练数据：对设计空间的巧妙采样

P1 AI 的核心技术基座是合成数据生成。Paul 详细阐述了这一方法的复杂性。

首先，大多数物理产品的设计空间几乎是无限大的——你不能随机采样，也不能均匀采样。正确的做法是：围绕"主导设计"密集采样，同时在设计空间的角落和边缘稀疏采样。边缘区域虽然不是你想去的地方，但它们教会模型理解"为什么那是边缘"——这是一种更深层的物理直觉。

其次，合成数据必须是"基于物理"和"供应链信息驱动"的。这意味着需要构建一个组件目录（component catalog），其规模需要比典型系统设计大两到三个数量级——比如一个百万零部件的系统，组件目录可能需要一亿到十亿个零件。这些组件要么映射到真实供应链中的实际零件，要么作为"假设组件"引入——"因为有时候创新不是组装已有的东西，而是说我需要一个不存在的新型电机或压缩机。"

然后需要智能地将这些组件组装成系统（不是"龙卷风穿过垃圾场随机组装出一架 747"），并对每个系统进行仿真以获取性能向量——这构成了最终的训练数据集。

Archie 的联邦模型架构

与单一端到端模型不同，P1 AI 的代理 Archie 采用了联邦式（federated）架构。Paul 将人类工程师的认知工作抽象为三种原始操作：

设计评估（Design Evaluation）：给定一个设计，其性能如何？需要建模相关物理现象。
设计合成（Design Synthesis）：给定性能需求，设计应该是什么样？
错误发现与填充（Error Detection & Infilling）：在设计中定位错误并进行修正。

任何工程查询都可以被分解为这些原始操作的序列。围绕这些操作，Archie 的背后运行着多个专业化模型：

图神经网络（Graph Neural Network）：作为物理基代理模型（surrogate model），在性能空间上进行快速评估。
几何推理器（Geometric Reasoner）：处理相对位置、打包（packing）、干涉（interference）等空间问题——部分用算法（软件 1.0）直接解决，复杂场景则借助视觉语言模型（VLM）。
"去英语化"的定制 LLM：Paul 称之为"切除了语言中枢的 LLM"——它不再擅长英语，但非常擅长处理多物理系统的程序化表示，并基于这些表示进行推理。
编排推理器（Orchestrator Reasoner）：一个常规 LLM，负责接收人类的任务指派，将任务分解为正确的原始操作序列，并将工作分发给上述专业模型。它也作为用户界面。

Paul 承认，物理推理中仍有一类操作他们尚不知道如何解决——"我认为将有一代新的物理世界模型（physical world models），它们在空间推理、复杂高阶空间推理上拥有更好的直觉。"

从数据中心冷却到航空航天：每年一个数量级的进化

P1 AI 的首个市场切入点出人意料地务实：数据中心冷却系统。原因有三：一是这是一个急性痛点——冷却系统已成为数据中心开发的"最长前置时间项目"（long lead item），工程带宽严重不足；二是物理复杂度的梯度合适——约一千个独立零件，物理现象丰富但仍是可线性化的（linearizable）；三是有极度热情的客户基础。

从那里开始，Paul 给出了一个雄心勃勃的路线图：每年提升约一个数量级的产品复杂度。下一个垂直领域是工业系统（工厂物料搬运、工业机器人、铣床车床），然后是移动领域（汽车、农业和采矿设备、重型机械），最后是航空航天和国防。从数据中心冷却到飞机的跨度大约是三个数量级——从一千个零件到一百万个零件。

"加入团队"而非"卖工具"：Archie 的定位哲学

Paul 的一个核心战略选择值得特别注意：Archie 不是卖给企业的一套软件工具，而是作为一个"远程初级工程师"加入工程团队。它会出现在 Slack 或 Teams 上，团队就像给一个在离岸工程中心工作的初级工程师派活儿一样来使用它。

这一定位的背后是深刻的市场洞察。第一，向空客这样的公司销售工程软件极其困难——生态系统中有成百上千种工具以各种"胶水式"方式连接，引入新工具极为复杂。第二，这些公司的劳动力预算远超方法和工具预算——"你想去动劳动力那块蛋糕，而不是工具那块。"

"我们的使命宣言是：世界上每一个主要工业公司的每一个团队都有一个 Archie。"

随机性的安全边界：与人类的误差率做对比

面对物理世界中 AI 的随机性（stochasticity）带来的安全顾虑，Paul 给出了一个简洁而有力的回应："人类工程师也是相当随机的。"一个初级工程师也会犯错、也可能不可重复。关键在于量化——P1 AI 计划在今年的试点中测量 Archie 的错误率。

"如果 Archie 的错误率与人类工程师相当或更好，那么它就应该无缝嵌入现有的工程流程。毕竟已经有层层审查、里程碑和测试来确保一个初级工程师的错误不会让飞机坠毁。"

E-AGI 的定义：布卢姆认知分类法的工程改编

Paul 对"工程 AGI"有一个明确的、可评估的定义。P1 AI 采用了布卢姆认知分类法（Bloom's Taxonomy）——一个 1950 年代提出的人类学习认知金字塔——并将其适配到工程任务上：

第一层是信息回想（recall）；第二层是设计的语义理解；第三层是评估设计或设计变更的性能影响；第四层是发现设计中的错误并进行修正和填充；第五层是合成全新设计或重大变更。而最高层——"工程 AGI"（E-AGI）——是反思（reflection）："我刚才采用了什么流程？这个流程的局限性是什么？是否有替代流程？我可能在哪里出错？"

"实际上，大多数基层工程师在这些问题上做得并不好——这是资深专家和技术院士才会做的。而这正是人类工程智能的巅峰：对工程过程本身的自我认知。"

终极愿景：从效率提升到设计人类无法设计的东西

当被问及"数百万个 Archie 遍布世界时的普通人感受"时，Paul 给出了一个既是务实者又是梦想家的回答。短期内，Archie 带来的是效率提升和成本降低——更便宜的商品，"也许你可以买得起飞机了"。

但他真正的北极星是"Archie 能够设计我们人类无法设计的东西"——那些科幻小说中承诺给我们的：星际飞船（starships）、戴森球（Dyson Spheres）、玛特廖什卡大脑（Matrioshka Brains）。"我是一个梦想家，这就是我创立这家公司的原因，这也是我们坚定的北极星。当然，我们也要在过程中建立一个务实且盈利的企业。"