光子驱动数据中心与AI的下一步:与Lightmatter创始人Nick Harris对谈

cover>

摘要

Nick Harris是光子计算公司Lightmatter的首席执行官。在Sequoia AI Ascent活动中,他带来了关于数据中心未来和光子互联技术的前瞻性演讲。

Nick首先用一个令人震撼的对比开场:AI模型的威力与算力投入直接相关——Sora(OpenAI的文本生成视频模型)从模糊失真的画面进化到具有物理真实感的视频,正是算力规模提升的结果。然而,这一道路正面临根本性瓶颈。

他从一组数据切入:部署4,000个GPU的超级计算机约需1.5亿美元,10,000个需4亿美元,60,000个则高达40亿美元。随着下一代系统向100亿甚至200亿美元迈进,企业面临巨大的投资回报压力。与此同时,摩尔定律(Moore's Law)和登纳德缩放定律(Dennard Scaling)——这两大驱动计算性能提升和成本下降的核心定律——正在走向终结。Jensen Huang在GTC大会上展示的新品也印证了这一点:芯片面积翻倍仅带来翻倍性能增长,而非此前的指数级提升。

Lightmatter的解决方案是光子技术(Photonics)。他们正在用光来传输芯片之间的数据,从根本上突破当前数据中心的互联瓶颈。当前的超级计算机采用"计算机架+网络机架"的分离架构,集群之间的互联非常薄弱,导致AI训练负载必须被切割以适应局部互联范围,严重限制了规模化效率。

Lightmatter的核心产品"Passage"是一种光学互联基板(Optical Interconnect Substrate),将AMD、Intel、NVIDIA、Qualcomm等公司的芯片置于其上。这一技术能够将数据中心的网络设备全部消除,实现芯片之间的全互联(All-to-All Interconnect),将计算规模提升至当前的100倍,同时大幅降低能耗。Nick的目标是支持100,000乃至100万个节点以上,这是他眼中通往通用人工智能(AGI)的必经之路。

正文

一、算力规模与AI能力的关系

Nick以Sora的演示开场——一个对他而言格外触动心灵的例子。Sora的展示清晰地揭示了算力对AI模型质量的巨大影响:当输入算力较小时,生成的是一团模糊的、难以辨认的"毛茸茸的东西";而当算力提升后,画面呈现出物理真实感——戴着帽子的狗、头发飘动的人物。正如Nick所说,这就是"算力规模对AI模型威力所能产生的差异"。

这一观察引出了他的核心命题:如果说AI的未来取决于算力的持续增长,那么支撑这种增长的基础设施必须发生根本性变革。

二、超级计算的资本支出危机

Nick用一组数据展示了AI训练所需超级计算机的惊人成本:

更令人警惕的是下一个台阶——100亿甚至200亿美元的投入。这些数字虽然粗略,但传达的信号非常清晰:AI系统的支出已经达到了天文级别。

虽然通用人工智能(AGI)可能就在前方——前提是投入足够的资金——但这给企业带来了巨大的投资回报压力。问题不仅在于资金规模,更在于推动计算进步的根本技术引擎正在熄火。

三、摩尔定律的终结与光子的崛起

Nick的物理学家背景让他对这一话题有着独特视角。他直言不讳地宣告:摩尔定律时代已经结束("Scaling is over")。

Jensen Huang在GTC大会上的最新发布恰好印证了这一点:一款面积翻倍、性能翻倍的芯片。在过去的摩尔定律时代,晶体管密度的指数增长带来了性能和能效的持续飞跃。但如今,推动计算民主化、使得AGI成为可能的核心技术——摩尔定律和登纳德缩放定律(Dennard Scaling)——正在走向终点。

Lightmatter的策略中心只有一个词:光(Light)。他们的核心想法是:既然无法通过进一步微缩晶体管来提升性能,那就从根本上改变芯片之间的数据传输方式。通过使用光子而非电子来移动芯片间的数据,可以将计算集群的规模扩大到前所未有的程度。

四、当前数据中心的架构瓶颈

Nick描述了当代超级计算机的典型架构:

这种架构的致命弱点是:互联的极度不均衡使得一个拥有1,000个GPU的集群实际上无法像一个整体那样运行。AI训练负载必须被切成小块,以适配紧密互联的计算单元。当你试图扩展到50,000个GPU时,单位性能的扩展效率会急剧下滑。

Nick的结论一针见血:1,000个GPU不仅仅是1,000个GPU——关键取决于你如何将它们互联在一起。互联的价值远远超过了GPU数量的简单叠加。

五、光子的愿景:全互联与无限扩展

Lightmatter提出了一个激进的重构方案:

  1. 消除所有网络机架:不再需要独立的网络设备,因为光子互联已经内嵌于计算基础设施之中
  2. 将计算规模扩大100倍:从当前的数千GPU扩展到数十万乃至百万级节点
  3. 实现全互联:每个芯片与其他所有芯片之间都有直接且高速的连接,而非"意面式"的稀疏拓扑

这一愿景的核心产品名为Passage——一种光子互联基板。其商业模式是与AMD、Intel、NVIDIA、Qualcomm等芯片巨头合作,将他们的芯片置于Lightmatter的光学互联基板之上。Passage实际上是未来AI计算的基础底座。

Nick声称这一技术将带来三个革命性变化:
- 能耗的大幅降低
- 百万节点级及以上的扩展能力
- 晶圆级(Wafer-Scale)最大芯片的实现路径

在他的时间线上,这是通往AGI的必经之路——只有在计算基础设施层面实现根本性突破,才能支撑下一代、下下一代AI模型的训练需求。

六、结语

Nick的演讲虽短,但信息密度极高。他精准地抓住了AI行业当前最根本的物理瓶颈:不是算法不够好,也不是数据不够多,而是硅基芯片的物理极限正在制约算力的指数增长。Lightmatter的解决方案——用光子替代电子进行芯片间通信——如果能够规模化部署,确实可能成为推动AI进入下一阶段的关键基础设施突破。