Waymo 的 Dmitri Dolgov:2000 万次出行与通往全自动驾驶之路

cover>

摘要

Waymo 联合 CEO Dmitri Dolgov 在 Sequoia AI Ascent 2026 上分享了他近 20 年来自动驾驶之旅的非凡历程。从苏联出生、莫斯科物理技术学院(Moscow Institute of Physics and Technology)的严苛训练,到 2005 年 DARPA 城市挑战赛的"灵光一现"时刻,再到 Google 自动驾驶汽车项目(后更名为 Waymo)的初创岁月,Dmitri 展现了一种罕见的品质组合:技术上的极致才华、毫不松懈的坚持,以及谦逊的领导风格。在本次对话中,他深入阐述了 Waymo 的 AI 生态系统——以 Waymo 基础模型(Waymo Foundation Model)为核心,驱动三大支柱:驾驶员(Driver)、模拟器(Simulator)和批评者(Critic)。这是一个多模态世界行动语言模型(Multimodal World Action Language Model),不仅需要理解图像的语义,还必须对 3D 空间、物理动力学和其他交通参与者的行为有精确的把握。Dmitri 明确指出,Waymo 采用的是端到端(End-to-End)架构,但"纯端到端"对于实现超人类安全水平的大规模部署是不够的——因此 Waymo 通过结构化的中间表示来增强学习表征,以实现运行时验证、闭环评估和强化学习的丰富奖励函数。在商业化方面,Waymo 正经历指数级增长:从 8 年覆盖 4 个城市到一天内启动 4 个城市,累计超过 2000 万次全自动驾驶出行(其中后 1000 万次仅用了 7 个月),每周超过 400 万英里自动驾驶里程,Waymo Driver 的安全性达到人类驾驶员的 13 倍以上。Dmitri 还分享了令人震撼的案例:激光雷达(LiDAR)通过探测巴士下方行人的脚部运动来预测其出现——这是涌现的超人类能力。

正文

从莫斯科物理技术学院到 DARPA 挑战赛

主持人从 Dmitri 的个人背景切入。在团队眼中,Dmitri 以技术才华出众、极度专注而温和谦逊著称。他出生于苏联,在美国长大,却选择回到莫斯科物理技术学院——这个全球最负盛名、最严苛的物理项目之一。Dmitri 解释说,他的父母曾就读于同一所学校,他从小就听着那里的故事长大,回到那里是为了"渴望亲身感受"。这段经历奠定了他技术和学习能力的根基——"在大学的早期岁月,最重要的事情之一就是获得独立学习和探索的能力。"

之后他在 AI 领域获得博士学位。2005 年的 DARPA 挑战赛对他来说是"灵光一现的时刻"。他说:"那是一个电灯开关被打开的瞬间。我之前对毕业后想做什么并没有清晰的图景。然后 DARPA 城市挑战赛来了,一切豁然开朗——这项技术极其有趣,使命如此强大以至于其他任何事都无法比拟,而且它是一个真实的产品,你可以亲身体验它。"此后 20 多年,他再未回头。

Waymo 的初创岁月:100,000 英里与 10 条路线

2009 年,Google 自动驾驶汽车项目启动。起初的两年,团队的核心任务是"学习问题空间"——理解将一辆自动驾驶汽车放在公共道路上意味着什么。为此他们设定了两个目标:第一,总计驾驶 100,000 英里的全自动驾驶里程(当时闻所未闻);第二,完成 10 条路线,每条 100 英里,分布在整个湾区,被刻意选为极具挑战性的路段。每条路线必须从头到尾全自动驾驶完成,不能有任何人工干预。 团队只有十几个人——典型的疯狂初创岁月:白天写代码和搭建硬件,晚上做测试。他们用了大约 18 个月完成了这两个挑战。

Dmitri 回忆说,那些早期岁月是他职业生涯中最快乐的时光。你什么都要做——在车里安装硬件、配置校准传感器、设计位姿估计系统、编写核心算法、构建工具和 UI、改善车内用户体验。学习速度疯狂,进步速度疯狂。 正是那几年,团队说服了自己——这值得全力投入,于是加倍下注,开始真正朝着全自动驾驶产品的未来迈进。

穿越至暗时刻:自动驾驶的低谷与坚持

2016-17 年是自动驾驶的炒作周期顶峰。无数公司涌入这个赛道,然后大量的失败和崩溃接踵而至。当大多数人放弃时,Waymo 坚持了下来。

Dmitri 评论道:这些周期的共同模式是某种突破带来了问题早期部分的快速进展和大量投资流入。自动驾驶始终具有一个特性:入门非常容易,但将它一路带到真正的产品、全自动驾驶和超人类性能极其困难。 卷积网络、Transformer、大语言模型——每次重大突破都会重塑曲线的早期部分,但不会改变它的长尾。

对 Waymo 而言,关键有两点:第一,深刻理解这不是一个简单的问题,但它是极其重要的使命;第二,不要寻找捷径或灵丹妙药。"今天,全球每 26 秒就有人在道路交通事故中丧生。使命的重要性与对困难的正视相结合,帮助团队具备了走到终点的耐力。"

Waymo 基础模型:驾驶员、模拟器与批评者

当今世界都在讨论世界模型(World Models)、世界行动模型(World Action Models)、全能模型(Omni Models)。Dmitri 认为这些术语的核心要素对 Waymo 至关重要。他揭示了 Waymo AI 生态系统的架构:

Waymo 基础模型(Waymo Foundation Model)驱动三大支柱:

  1. 驾驶员(Driver)——实际在道路上运行的智能体
  2. 模拟器(Simulator)——用于训练和评估的虚拟环境
  3. 批评者(Critic)——评估性能、提供反馈

Dmitri 将其定性为一个多模态世界行动语言模型(Multimodal World Action Language Model)

Dmitri 强调,Waymo 在将这一模型产品化的道路上已经走了多年——它要求在每一个方面都达到极高程度的性能、准确性和真实感。

超越"纯端到端":结构化中间表示

当被问及端到端架构时,Dmitri 非常明确:Waymo 基础模型是一个端到端模型——单一模型从传感器到决策/行动。端到端的关键优势是学习编码器和解码器之间(或感知与规划之间)的丰富表示,而不是依赖工程化的接口——这对于驾驶这样的任务来说不够充分。

但他直指一个错误的二分法:"端到端还是其他?"真正的问题是——端到端,然后呢? 如果你想拥有一个全自动驾驶、超人类安全水平、能够大规模部署并行驶数亿英里的产品,"纯端到端"是不够的。Waymo 的方法是在学习到的表示之上增加结构化的、可物化的中间表示(Structured Materialized Intermediate Representation)。

这赋予了 Waymo 几个至关重要的能力:

这些能力对于"做出一个演示或小规模部署"来说可能不需要,但对于"一路走到全自动驾驶安全系统"来说绝对关键

第六代硬件:O Hi 与指数级扩展

Waymo 的第六代硬件是他们迄今为止最先进的硬件套件和传感器套件。Dmitri 说,这一代的焦点是三件事:性能、简化、大幅度成本降低和大规模量产。这套硬件驱动着最新的车辆平台 O Hi(Zeekr 合作的自动驾驶专用车)。今年早些时候已启动全自动驾驶运营,目前仅对员工开放,稍后将向所有人开放。

Dmitri 第一次乘坐 O Hi 时的感受:"每次有新的'第一次时刻'。这辆车是围绕乘客体验设计的——尽管外部尺寸与 I-PACE 差不多,但坐进去感觉像客厅,后排空间巨大,有新屏幕,车门在你靠近时自动滑开。我迫不及待想让所有人体验它。"

在扩展方面,数据令人瞩目:

这就是指数级扩展的样子。

在扩张新城市的流程方面,Dmitri 分享了几个要点:收集数据、表征环境、验证驾驶员性能,以及一个重要的环节——与当地社区展开对话,因为这是一个全新的产品,必须赢得人们的信任。如今,Waymo 看到驾驶员正在展现出极其强大的泛化能力,剩下的主要是高保真度的严格评估和验证,然后就可以部署全自动驾驶产品。

Dmitri 的日常生活已经完全被 Waymo 渗透——这就是他的出行方式。他的三个孩子热爱 Waymo,以至于偶尔不得不坐人类驾驶的汽车时,他们会感到不满。在孩子们眼中,只有两件事能引起惊叹:"狗狗和 Waymo。"

安全:非妥协的基础

当被问及安全时,Dmitri 的态度变得非常严肃。"现状是不可接受的" 是驱动 Waymo 所有人的核心理念。全球每年有 119 万人在道路交通事故中丧生——几乎每个人都与这个问题有所关联。

安全必须是不可协商的基础,必须从第一天起就融入所做的一切——模型架构、训练和评估方案、团队心态。Dmitri 发出了一个深刻的警告:专注于能力并快速达到 90% 是非常诱人的——但如何实现第一个 90%,与如何实现接下来的几个"9"(99.9%...),是完全不同的问题。

目前 Waymo 的数据是:在累计超过 1.7 亿英里的全自动驾驶里程中,Waymo Driver 在涉及严重伤害的碰撞事故中比人类驾驶员安全 13 倍以上。 在当前的运营规模下,这意味着 Waymo 每 8 天就预防了一起严重伤害事故。

激光雷达的超人类能力:透过巴士"看见"行人

Dmitri 分享了一个让他自己都感到震惊的案例。在旧金山,一辆 Waymo 在一个十字路口等待红灯。一辆巴士穿过路口并部分堵塞了视野。当绿灯亮起,Waymo 开始前进,却检测到了巴士另一侧的一个行人——但你看不透巴士,激光雷达、雷达、摄像头都不行(车窗反射了车内的人)。Waymo 开始采取防御性反应。果然,一个行人从巴士后面出现。

后来他们才弄清楚发生了什么:激光雷达的信号弹到了巴士底部,捕捉到了行人脚步运动的稀疏回波。 光是这一点,就足以让 Waymo AI 不仅检测到有行人在那里,还预测了接下来会发生什么,并采取了保护措施。Dmitri 说:"我当时的反应是——脑子炸了。Waymo Driver 虽然看不到固体物体后面,但这种涌现的超人类能力让人瞠目结舌。"

展望未来:全球化并行商业化

对于未来 5-10 年的展望,Dmitri 言简意赅:Waymo 已经从"有意图的、顺序式地去风险化"转向了"快速并行的全球商业化"。这意味着:

正如主持人总结的那样:从早期仅仅依靠不多的技术就能走很远,到在最艰难的低谷中坚持走完那"最后一英里",再到世界模型和驾驶员-模拟器-批评者架构、第六代硬件、安全理念和指数级扩展——Dmitri Dolgov 不仅是 Waymo 的技术灵魂,更是以其谦逊和执着定义了自动驾驶行业的真正领袖。而那被拯救的无数生命,才是这场征途最真实的见证。