Google 的 Jeff Dean:AI 正在迎来的变革浪潮

cover>

摘要

Google 首席科学家、Alphabet 的 Jeff Dean 与 Sequoia 合伙人 Bill Korn 在 AI Ascent 2025 上进行了一场深度对话。Jeff Dean 回顾了 AI 行业从 2012 年至今的发展历程——从使用 16,000 个 CPU 核心训练当时最大的神经网络,到如今 Google 的 Gemini 2.5 Pro 能够处理多模态任务。他阐述了三大驱动力:算法改进(Algorithmic Improvement)硬件规模化(Hardware Scaling)强化学习与后训练(RL & Post-training)正在持续推动模型能力的提升。

对于行业热议的 AI 代理(Agent),Jeff 的观点务实而乐观:当前代理只能完成部分任务,但通过强化学习和经验积累,通向全能代理的路径是清晰的。在物理机器人领域,他预测未来一两年内机器人将能在复杂环境中完成约 20 项有用任务,随后通过成本工程和持续学习,实现数量级的飞跃。关于大模型格局,他认为真正的前沿模型玩家将只有少数几家,但蒸馏(Distillation)技术会让轻量级模型广泛普及。

在硬件方面,Jeff 分享了 Google TPU 项目从 2013 年起步的历程,强调专为机器学习优化的低精度线性代数加速器(Accelerators for Reduced Precision Linear Algebra)是行业基石。他透露正在投入时间研究如何将推理硬件的能效提升 1 万至 5 万倍。对于 AI 在科学领域的影响,他以 AlphaFold 和计算模拟的神经网络近似(速度提升 30 万倍)为例,说明 AI 正在从根本上改变科学研究的方式。他甚至预测,在一年之内 AI 将达到初级工程师的水平。

正文

从 16,000 个 CPU 到万亿参数模型:AI 的进化之路

Jeff Dean 回忆道,2012-2013 年间,人们开始使用当时看起来很大的神经网络来解决实际问题,而且同样的算法方法竟然可以同时适用于视觉、语音和语言——这在当时是相当惊人的发现。"这让我们意识到,机器学习是解决这些问题的正确方式,而不是传统的手工设计方法。"

早在 2012 年,Jeff 的团队就开始思考如何规模化训练超大神经网络。他们使用 16,000 个 CPU 核心训练了一个当时比任何模型都大 60 倍的网络,并取得了出色的结果。"这坚定了我们内心的信念:规模化这种方法确实有效。"从此以后,"更大模型、更多数据、更好结果"(Bigger Model, More Data, Better Results)这一原则在过去 12 到 15 年中基本成立。

如今,模型能力的提升来自三个维度的叠加:算法改进让我们能以同样的计算成本训练更强的模型;硬件扩展提供了越来越高的每单位算力;强化学习和后训练方法则让模型按照我们期望的方式行事。多模态能力(Multimodality)是另一个重要突破——能够输入和输出音频、视频、图像、文本和代码,使模型变得极其实用。

AI 代理:今日的雏形,明日的标配

当 Bill Korn 直言不讳地说"有些代理看起来像雾件(Vaporware)"时,Jeff 给出了务实而乐观的回应。"我确实看到了一条路径:通过正确的训练过程,代理最终能够在虚拟计算机环境中完成人类今天能做的大部分事情。现在它们只能做部分事情,但能力提升的路径是相当清晰的。"

关键在于三管齐下:更多的强化学习运行、更多的代理经验可供学习、以及早期产品虽然不能做所有事但仍然对人们极为有用。Jeff 将同样的逻辑延伸到物理机器人领域:"目前,机器人在像这个房间这样混乱的环境中还不怎么好用,但你可以看到一条路径——在未来一两年内,它们将开始能够在这个房间中完成 20 项有用的任务。这将催生能完成这 20 项任务但价格昂贵的机器人产品。然后从经验中学习,它们会被成本工程优化,变成便宜 10 倍、能完成 1000 项任务的产品,进而引发更多的成本优化和能力提升。"

基础模型的终局:少数几家

当被问及大语言模型的竞争格局时,Jeff 的判断非常明确:"构建绝对前沿模型需要巨大的投资,因此不会出现 50 个玩家——可能只有少数几家。"

但他同时指出了蒸馏(Distillation)技术的关键作用——这项他曾参与发明但被 NeurIPS 2014 拒稿的技术,如今被 DeepSeek 等公司采用,成为整个行业的重要工具。"如果你有一个更好的模型,你可以把它装进一个小规模的系统中,变得轻量、快速、具备你想要的各种特性。"这意味着虽然前沿模型由少数公司主导,但不同形态、不同专注领域的模型将大量涌现。

TPU、Pathways 与计算的未来

Jeff 帮助启动了 Google 的 TPU(张量处理单元)项目——2013 年他们意识到推理需要大量计算,第一代 TPU 应运而生;之后 TPUv2 同时面向推理和训练。如今,Google 已推出 Ironwood 系列(第六代),而这一切源于一个简单的洞察:"你需要的是低精度线性代数加速器,而且每一代都要更好,并且要通过超高速网络在大规模上互联,使模型计算可以分布在尽可能多的计算设备上。"

在开发者体验方面,Jeff 介绍了 Pathways 系统——这是一个让开发者能用单进程 Python 驱动成千上万芯片计算的能力。"我们最大的 Gemini 模型训练就是由一个 Python 进程驱动数万芯片完成的——效果非常出色。"Google 刚刚宣布将 Pathways 开放给云客户使用。他评论道:"用一个进程管理数万设备,比管理 64 个处理器对应 256 个芯片要好得多——你为什么要那样做?"

关于硬件的未来方向,当被问及模拟计算(Analog Computing)时,Jeff 承认其具有极高的能效潜力,但数字芯片也在不断专精化。他目前正在投入部分时间研究如何将推理硬件的效率提升"1 万、2 万、5 万倍"——"如果我们全力以赴,这似乎是完全可以实现的"。

计算的范式转变:从浮点运算到数据搬运

Jeff 指出了一个被重新聚焦的关键点:"传统计算机科学在分析算法和计算复杂度时完全基于操作数量(Op Count),但人们正在重新发现硬件和系统设计的细节——你必须考虑网络带宽(Network Bandwidth)和内存带宽(Memory Bandwidth)。"

他将这个观点推到了极致:"在现代机器学习计算中,你在极微观的层面上关心数据移动——把数据从 SRAM 搬到累加器(Accumulator)花费的能量非常非常小,但比实际运算消耗的能量多得多。"他开玩笑说:"现在你需要在舌尖上随时准备着'皮焦耳'(Picojoules)这个单位。"

当被问及"未来计算基础设施的终极形态"时,Jeff 描绘了从手机到数据中心的全景图:你希望手机以极低功耗运行强大的多参数模型以实现自然对话;你希望机器人和自动驾驶车辆拥有更高效的计算硬件;你在数据中心既需要超大规模推理,又需要根据不同问题灵活分配推理计算资源(有些问题值得花费万倍以上的算力)。"这是一个美妙的新缩放旋钮,它能让你的模型变得更强。"

AI 科学家的时代:从诺贝尔奖到教育革命

Jeff 特别指出,2024 年 Google 的两位同事——Demis Hassabis 和 John Jumper——因 AlphaFold 获得了诺贝尔化学奖,再加上 Geoffrey Hinton 获得物理学奖,"这说明 AI 真的正在影响各种不同的科学领域。"

他的核心洞察是:许多科学领域拥有极其昂贵的计算模拟器(如天气预报、流体动力学、量子化学模拟),而你可以把这些模拟器作为训练数据来训练神经网络,构建出比原模拟器快 30 万倍的近似版本。"这从根本上改变了你做科学的方式——我突然可以在午餐时间去筛选 1,000 万个分子了,而之前我可能需要用我没有的计算资源跑一整年。"

在更贴近生活的层面,Jeff 分享了他对"氛围编程(Vibe Coding)"的尝试,并特别提到一个令人兴奋的教育应用:"你把一个教育类 YouTube 视频输入,然后提示词是'请给我做一个教育游戏,用图形和交互来说明这个视频的概念'。虽然不是每次都成功,但 30% 的概率你能得到一个关于微分方程、火星旅行或细胞生物学的相当酷的产品。这展示了我们现在和未来几年内拥有的工具将如何以令人难以置信的方式改变世界。"

模型架构的未来:稀疏性与有机学习

对于模型是走向"一个超级大模型"还是"一组小型蒸馏模型",Jeff 给出了独到见解。他一直钟爱稀疏模型(Sparse Models)和混合专家(Mixture of Experts)架构:"我们从生物类比中得到的启示是——我们的人脑之所以能以 20 瓦的功率做很多事情,部分原因在于,当你在车里躲避垃圾车倒车时,你脑子里写莎士比亚诗歌的那部分是休眠的。"

在 Google,他们曾训练了一个拥有 2,048 个专家的模型,实现了效率的 10 到 100 倍提升。但 Jeff 认为这还远远不够:"现在的稀疏性太有规律了。你真正想要的是模型中有不同的路径——有的路径比其他路径昂贵 100 倍或 1,000 倍,有些专家只需要极少的计算量,有些则需要非常大的计算量。它们可能应该有不同的结构。"

他设想了一种更有机的持续学习系统:能够扩展新参数、压缩部分模型(通过蒸馏将某部分缩小到原来的四分之一)、然后像垃圾回收一样释放内存用于别处。"我们今天的系统虽然极其有效,但这反而让人更难完全改变方向。但我真的相信,采用这种风格构建系统会带来巨大的好处。"

问答精选