NVIDIA CTO Michael Kagan:超越摩尔定律,迈向百万GPU集群

摘要
NVIDIA首席技术官Michael Kagan在这期节目中深入剖析了计算从芯片级向数据中心级演进的宏大图景。作为半导体行业的传奇人物,他曾担任Intel首席架构师16年,随后共同创立了Mellanox,该公司于2019年被NVIDIA以70亿美元收购。Kagan详细阐述了Mellanox的互连技术在NVIDIA崛起中的关键作用——正是这项技术使得GPU能够从单芯片扩展为"叉车才能抬起"的机架级系统,再到十万乃至百万GPU的数据中心级超级计算集群。他解释了训练与推理工作负载的本质差异,以及为何推理的计算需求实际上正超越训练。Kagan还分享了NVIDIA"共赢"文化的哲学——不是去争夺现有蛋糕的更大份额,而是为整个生态烘焙更大的蛋糕。从Intel与NVIDIA的合作到地球2号气候模拟器,从光学互连到AI揭示新物理定律,这场对话展现了计算平台从"思维的自行车"到"思维宇宙飞船"的壮阔演进。
正文
Mellanox:NVIDIA崛起背后的隐形支柱
Kagan首先阐释了Mellanox收购为何对NVIDIA至关重要。AI工作负载的增长速度远超传统摩尔定律——"模型规模每3个月翻一番,这意味着每年需要10到16倍的性能增长,而非传统的每两年翻倍"。这种指数级需求驱动了计算架构的根本变革。
Kagan将扩展策略分为两个维度:纵向扩展(Scale Up)和横向扩展(Scale Out)。在CPU时代,纵向扩展意味着增加更多晶体管或采用多核设计;而在GPU世界,"基本构建单元本身就是一台需要叉车才能搬运的机架级设备"。今天的NVIDIA GPU实际上是一个包含36台计算机(72个GPU)通过NVLink互连的系统,对外呈现为单一GPU的编程接口。
Mellanox技术的第一个贡献就是使这种纵向扩展能够超越单节点边界——"不仅仅是插根线那么简单,而是大量的软件和技术,让多个节点能像单台机器一样协同工作"。第二个贡献则体现在横向扩展:将任务切分成数千个碎片并行处理,需要极高的网络带宽和极低的抖动。"当网络延迟分布很宽时,你只能将任务拆分到10个GPU,而非1000个。因此,网络本质上决定了集群的性能上限。"
从十万到百万GPU:工程极限的新挑战
当被问及百万GPU集群会面临什么挑战时,Kagan指出第一个问题是可靠性:"硬件组件可能以99.999%的正常运行率运行,但当你有数百万组件时,一切正常的概率为零。必须从硬件和软件两方面设计系统,使其在故障中继续高效运行,保持性能和功耗效率。"
第二个挑战是网络架构——运行单一应用在10万台机器上与构建通用数据中心网络完全不同。更大的挑战来自跨数据中心通信:"当数据中心之间相距数公里甚至跨大陆时,光速成为决定性的延迟限制。" 为此,NVIDIA开发了Spectrum-X以太网技术,在数据中心边缘放置Spectrum交换机,提供端到端的遥测信息,使端点能够自适应调节拥塞。
训练与推理:计算需求的范式转移
Kagan详细解释了训练与推理工作负载的根本区别。训练包含前向传播(推理)和反向传播(梯度更新)两个阶段,长期以来训练是GPU需求的主要驱动力。然而生成式AI的兴起彻底改变了这一格局。
"推理不再是简单的单次感知(如辨认一张照片是猫还是狗),而是递归生成——每生成一个新token都需要遍历整个模型。"更关键的是,推理本身又分为预填充阶段(Prefill)(计算密集型,处理提示词和上下文)和解码阶段(Decode)(内存密集型,逐token生成答案)。加上推理模型(reasoning models)需要"思考"——比较多个解决方案和路径——推理的总计算需求实际上已超过训练。"模型训练一次,但推理要进行无数次。ChatGPT有近十亿用户在不断地使用同一个模型。"
为此,NVIDIA正在为不同的推理阶段优化不同的GPU架构变体,但保持相同的CUDA编程接口,使得数据中心可以根据工作负载动态调配资源。
NVIDIA × Intel:共赢文化的新篇章
Kagan在Intel工作16年担任首席架构师,如今又推动了NVIDIA与Intel的合作。他将这种合作描述为"将加速计算与通用计算融合"——x86架构仍然是通用计算的主导平台,而与NVIDIA加速计算的结合将拓展两个公司的市场渠道。"我们不是去抢夺现有蛋糕的更大份额,而是在为所有人烘焙更大的蛋糕。NVIDIA的成功是客户的成功、生态系统的成功,而非竞争对手的失败。"
这种文化也在Mellanox收购中得到了验证。收购时NVIDIA市值约1000亿美元,如今已超4.5万亿美元,增长45倍。"Mellanox收购案被认为是科技史上最成功的并购之一。在以色列,原有员工的85%到90%留任至今,NVIDIA还在以色列建设新园区。"
AI与物理学的交汇:从地球2号到新物理定律
对于科幻般的未来,Kagan分享了他对"实验性历史"的憧憬——通过像地球2号(Earth-2)气候模拟器这样的技术,我们能够模拟今天的行为将如何影响50年后的全球变暖。"AI在观测和归纳方面非常出色,它可以帮助我们发现那些我们甚至还未设想的物理定律。"
关于性能增长的速度,Kagan提出了"Kagan定律"——每年数个数量级的性能提升。"自大约两三年前开始,我们将产品更新节奏从每两年一次加速到每年一次,每一代产品的机器级性能大约是前一代的一个数量级。" 他将AI比作"思维的宇宙飞船"——就像电力彻底改变了世界,AI也将如此。当被问及谁能想象未来的应用场景时,Kagan以iPhone的例子说明:"今天的智能手机最少使用的功能竟然是电话——谁能在2007年预测到这一点?"
注:本文基于Sequoia Capital访谈节目内容编译整理。