Wayve:端到端学习如何创造了自动驾驶 2.0——CEO Alex Kendall

cover>

摘要

2017 年,当整个自动驾驶行业还在堆砌数百万行 C++ 手写代码来处理每一个边缘场景时,Alex Kendall 创办了 Wayve,押注了一条完全不同的路径——端到端深度学习。八年后的今天,Wayve 的具身 AI 基础模型正在为日产等全球顶级汽车制造商提供自动驾驶能力,而"AV 2.0"已经从异端成为共识。在这期对话中,Kendall 深入拆解了端到端方法的核心理念:为什么泛化能力是自动驾驶的关键、世界模型如何让 AI 学会推理、为什么传感器融合的争论不是真正的前沿问题、以及如何用同一个基础模型驱动不同品牌和传感器架构的车辆。他还分享了对具身 AI 未来十年发展的展望,以及 Wayve 独特的企业文化——在资源约束下被"使命驱动的信念"所塑造的全栈组织。

正文

从 AV 1.0 到 AV 2.0:一场持续十年的范式战争

什么是 AV 1.0?Kendall 将其概括为经典的机器人学方法:将自动驾驶问题分解为感知、规划、建图、控制等独立模块,然后大规模手工编码。"2017 年我们创办公司时,种子轮融资的 PPT 核心观点就是:我们认为机器人的未来不是一个被手工编码、依赖高精地图和大量基础设施的系统,而是一台拥有自主判断能力的智能机器。"

AV 2.0 的答案简单而激进:用一个端到端的神经网络替代整个模块化栈。传感器输入进来,运动指令出去,中间是一个巨大的神经网络。

这一观点在当时极度逆势。"典型的反对意见是:这不安全,不可解释,无法理解它在做什么,甚至根本说不通。" Kendall 回忆起这些质疑时指出,五到十年前说端到端深度学习不可解释也许是合理的,但今天已经不成立了——我们有大量强大的工具来理解和诊断这些系统的决策方式。"更重要的是,如果你要构建一台真正的智能机器,期望通过单行代码或单一因果因素来解释复杂结果是天真的——智能机器的美妙之处恰恰在于它们的复杂性。"

泛化能力:为什么 Wayve 能在数百个城市同时部署

Wayve 与传统 AV 公司的根本区别在于泛化策略。AV 1.0 公司需要为每一个新城市手工构建高精地图,而 Wayve 的 AI 则被训练来理解多元化场景。

2024 年 9 月,Wayve 与日产在东京共同向媒体展示了一辆自动驾驶汽车——而四个月前,Wayve 的车辆才第一次在东京的道路上行驶、第一次接触这辆车。四个月后,媒体已经在车内体验自动驾驶。这是一个新国家、一辆新车的组合——而 Wayve 的 AI 完美泛化了。

"自动驾驶全在于泛化。泛化意味着能够推理或理解从未见过的事物。每次开车你都会遇到新的东西——今天我们看到一个道路工人在人行横道前铺着什么东西,我们需要判断是否可以安全通过。你永远不可能在训练数据中看到所有可能性。"

这种泛化能力来自于训练数据的极度多样性:Wayve 从行车记录仪、车队、制造商和机器人运营商等多个来源聚合数据,同时利用无监督学习技术来聚类和发现异常场景,并针对系统表现不佳的场景驱动学习课程。

世界模型:教会 AI 如何推理

当被问及模型如何进行推理时,Kendall 将话题引向了一个关键概念——世界模型。

"2018 年,我们把第一个世界模型放在了实际道路上——那是一个仅有 10 万个参数的小型神经网络,能够模拟前方道路的 30×30 像素图像。但我们已经可以用它作为内部模拟器来训练基于模型的强化学习算法。"

今天,Wayve 开发了名为 GAIA 的完整生成式世界模型,能够模拟多个摄像头和传感器的丰富多样化环境,并且可以对场景中的不同代理进行控制和提示。"这就是推理在物理世界中的体现——模型学习了世界如何运作,以及接下来会发生什么。"

这种世界模型带来的涌现行为令人惊叹:当在雾天行驶时,车辆会自动减速以匹配其感知能力;在面对视野受限的无保护转弯时,车辆会"轻轻向前挪动直到自己能看清",然后完成转弯。"通过训练模型理解世界的因果结构,它会自然展现出这些安全且平顺的驾驶行为。"

传感器融合:不是正确的问题

关于"纯视觉 vs 传感器融合"的技术争论,Kendall 给出了一个出人意料的回答:"这是在问错误的问题——它不是真正的前沿问题。"

他指出,除了特斯拉之外,整个汽车行业实际上已经围绕一种共同架构达成了共识:环绕摄像头、环绕雷达和前置激光雷达。这套硬件的成本已经降到 2000 美元以下,使用的是汽车量产级别的组件而非 Robotaxi 改装件。"这为 L3/L4 自动驾驶提供了一个非常出色的平台——它提供了必要的冗余,让你能够处理纯视觉无法覆盖的边缘案例。纯视觉可以让你达到人类水平,但我们要超越人类水平。"

Wayve 的策略不是二选一,而是训练 AI 理解所有不同的传感器排列组合。"有纯摄像头方案适用的场景,也有摄像头加雷达加激光雷达适用的场景——我们用来自多种数据源的非常多样化的数据来训练我们的具身 AI 模型。"

一条模型,多品牌适配:AI 基础模型的规模化逻辑

如何让同一个 AI 驱动日产的汽车,也驱动其他厂商的不同车型——每款车都有略微不同的摄像头位置和传感器配置?

"它们来自同一个家族。" Kendall 解释,Wayve 训练一个非常大规模的基础模型,这个模型是所有合作车队的共同基础。当需要针对特定传感器组合或嵌入式平台进行优化时,可以进行高效的"个性化"调整。

"美妙之处在于,99% 以上的成本、时间和精力都花在了训练那个基础模型上,然后我们可以针对特定客户建立非常高效的个性化适配层。" 这种架构让 Wayve 可以同时实现规模化和对不同用例的快速适应。

从自动驾驶到通用具身 AI

Wayve 的视野远不止于自动驾驶。"在未来,我们将看到大量有趣的机器人用例。我认为移动性会比操纵先一步成熟——操纵在数据获取、全球硬件供应链和触觉感知方面仍然面临巨大挑战。"

但 Kendall 相信,同样的故事将会重演:在一个狭窄领域投入大量基础设施和昂贵硬件的方式终将遇到天花板,而专注于通用目的、精益硬件、低成本方案、真正让系统变得最智能的路径才是规模化的配方。

"在汽车领域,我们可能是全球拥有最大机器人和数据供应链的公司之一——我们很幸运能够推动这方面的智能发展。将这种智能泛化到新的应用场景,模型能够体验多个不同的垂直领域,只会让它变得更加通用。"

在资源约束下生长的独特文化

Kendall 特别强调了 Wayve 企业文化的独特性——这不仅仅是一群 AI 研究员组成的实验室。

"我们的团队从 50 个模型开发者同时在一个生产模型上工作,到理解一个端到端网络并对其进行自省,再到将这些系统部署到仿真或实车并收集反馈——这套端到端的工作流文化是完全从零建立的。" 在传统机器人学中,有成熟的工具链和工作流来调整参数、设计几何地图;但在 Wayve 的世界里,一切都是为具身 AI 和端到端深度学习重新发明的。

"在资源约束下工作,永远让我们团队保持了最锋利的创新本能。" Kendall 说。


注:本文基于 Sequoia Capital 访谈节目内容编译整理。