Recursive Intelligence创始人如何用AI塑造芯片设计的未来

cover>

摘要

芯片设计是AI计算的最大瓶颈——芯片设计周期以年为单位,而AI模型每几个月就迭代一次。这种不对称使得模型与硬件的协同优化(Co-design)几乎不可能。Anna Goldie和Azalia Mirhoseini——Google AlphaChip项目的核心缔造者——正试图用AI彻底改写芯片设计的方法论。他们的新公司Recursive Intelligence(递归智能)的命名本身就揭示了终极愿景:递归式自我改进——AI设计更好的芯片,更好的芯片运行更强大的AI,形成正反馈飞轮。从AlphaChip在四代Google TPU中验证的超人类布局能力,到如今面向端到端芯片设计优化的全新平台,Anna和Azalia描绘了一个从"无晶圆厂"(Fabless)迈向"无设计团队"(Designless)的未来。她们认为,当AI能将芯片设计从需要数百人团队的浩大工程降维为可规模化的服务时,定制芯片将迎来寒武纪大爆发——从太空数据中心到AR/VR设备,从助听器到模型推理专用芯片,任何有规模效应的计算负载都可能拥有自己的定制硅片。本文深入探讨了强化学习在芯片布局中的突破性应用、合成数据在训练中的关键角色,以及前沿AI实验室与现有EDA(电子设计自动化)寡头的差异化竞争策略。

正文

一、芯片设计的瓶颈:为什么AI需要更好的芯片

Anna Goldie开场便指出问题的核心:缩放定律(Scaling Laws)驱动着AI的进步——无论是预训练、后训练还是推理阶段,更多的计算资源就意味着更强的智能。但这里存在一个根本性的错配:GPU最初是为图形处理设计的,后来被挪用于加密货币挖掘,再后来才被用于神经网络训练。它们"擅长大规模矩阵乘法",但远非为AI量身定制。

两位创始人曾经在Google Brain观察到,如果能让模型和硬件协同优化,就可以使有效计算资源大幅提升,从而在缩放曲线上向外推进。但问题在于,芯片设计周期太长——从架构设计到流片(Tape Out)再到量产,往往需要数年时间。而AI方法每隔几个月就会迭代一代。这种不对称意味着芯片设计本身就是计算瓶颈

这正是她们创办Recursive Intelligence的动机:用最先进的AI方法加速芯片设计本身,从而解除对AI计算的根本约束。

二、AlphaChip:从被质疑到超人类性能

AlphaChip的故事始于2018年。当时Anna和Azalia在Google Brain做神经网络到芯片的映射优化,取得成果后开始思考"什么是最具影响力的下一步"。芯片布局(Floor Planning)进入了视野——这是EDA领域公认的"皇冠明珠"。

芯片布局问题本质上是一个大规模组合优化问题:在单块芯片的一个子区域(Block)中,可能包含数百万个节点需要放置和布线,同时满足功耗、性能、面积(PPA)以及数十项物理约束。传统方法依赖EDA软件(如Cadence和Synopsys)和人类专家的反复迭代。

Anna和Azalia的创新在于采用了基于学习的强化学习方法。与传统启发式算法不同,RL(强化学习)代理通过与环境的交互学习,能够从正面和负面案例中迭代提升——就像一个人类专家通过处理更多实例变得越来越擅长一样,AI代理也展现出类似的"自我改进"能力。

但最初的进展并不顺利。她们回忆道,第一次向TPU团队展示成果时,对方几乎是"愤怒"的——因为她们优化的是一个学术界常用的指标(半周长线长),而实际工程师关心的是布线后的线长、拥塞程度、时序违规、功耗和面积。这次碰壁反而促成了深度合作:TPU团队的Mustafa开发了快速拥塞成本函数,Anna和Azalia将其纳入RL代理的优化目标。

四代TPU的实践证明了AlphaChip的价值。每一代产品中,AI设计的布局被越来越多地采用,覆盖的芯片面积不断增长,与人类专家基线的性能差距(Delta)也在持续拉大——这正是AI随数据增长而规模化的典型特征

更令人惊叹的是AI生成的布局往往呈现出"弯曲的"或"甜甜圈"形状——这些创意是人类设计师因风险规避而不敢尝试的,但却能有效减少线长、降低功耗。这让人联想到AlphaGo的"第37手"——超越人类直觉的创造性表现。

三、递归式自我改进:名字中的哲学

"Recursive"这个名字承载着深刻的战略含义。公司全名的首字母R.I.构成"Recursive Intelligence",而核心概念——递归式自我改进(Recursive Self-Improvement)——描述的是一个飞轮效应:

AI设计出更好的芯片 → 更好的芯片运行更强大的AI → 更强大的AI设计出更优的芯片 → 循环往复。

这个飞轮之所以至关重要,是因为它能够"弯曲缩放曲线"。在AI军备竞赛中,谁能率先获得更高效的计算基础设施,谁就能在下一代模型训练中占据先机。如果Recursive Intelligence能够将芯片设计周期从数年压缩到数月甚至数周,那么从模型创新到硬件落地的时间差将急剧缩小,实现真正的"芯片-模型协同进化"。

Anna强调,目前最大的障碍是芯片设计与模型设计之间的"设计周期不对称"——解决这个问题,就能释放整个AI生态的潜力。

四、从Fabless到Designless:定制芯片的民主化

Anna和Azalia提出了一个大胆的产业愿景:将芯片设计行业从"无晶圆厂"(Fabless)时代推进到"无设计团队"(Designless)时代。

Fabless模式曾经是革命性的——在TSMC出现之前,业界认为没有自有晶圆厂就无法成为严肃的芯片公司。而Nvidia等万亿美元企业的崛起证明了Fabless的可行性。现在,Recursive Intelligence认为AI可以创造新的范式:企业无需拥有一支数百人甚至上千人的芯片设计团队,就能获得为自身业务定制的芯片。

这一愿景的现实基础在于:当前AI推理的年度支出已超过千亿美元且仍在快速增长,但能够负担定制芯片团队的只有Google(TPU)、Amazon(Trainium)、OpenAI(与Broadcom合作)等少数巨头。Recursive Intelligence希望将这种能力"民主化"——任何有足够规模的计算负载的企业,都可以通过AI自动化的设计流程获得定制硅片。

Anna预测这将引发芯片设计的"寒武纪大爆发":太空数据中心需要抗辐射芯片,AR/VR设备需要超低延迟芯片,助听器需要极致低功耗芯片。每个新的计算场景都可能催生专属芯片架构。

五、数据策略:合成数据的前景

芯片设计领域的一个核心挑战是训练数据的稀缺性。Anna和Azalia对合成数据(Synthetic Data)寄予厚望。她们在Claude和Gemini等LLM项目中积累了丰富的合成数据经验,认为同样的方法论可以应用于芯片设计。

与传统EDA公司的做法不同,Recursive Intelligence不依赖客户数据来训练模型——一方面客户数据需要保持隐私和隔离,另一方面任何单一客户的数据量都远远不够。通过合成数据技术,她们可以生成比任何客户能提供的都要多好几个数量级的训练数据。这种策略使得模型的规模化不会受到真实数据的限制。

六、与EDA寡头的差异化竞争

芯片设计市场长期由Synopsys和Cadence双寡头垄断。两者也在将AI集成到产品套件中。Anna和Azalia的竞争策略是"从相反方向切入"——她们不是EDA工具厂商在现有产品上加AI功能,而是作为前沿AI实验室重新思考芯片设计方法

她们的核心信念根植于"苦涩的教训"(The Bitter Lesson)——Rich Sutton的经典论文指出,在AI历史上,依赖大规模计算和数据的方法最终总是击败依赖人类领域知识的手工方法。芯片设计也不应例外。Recursive Intelligence追求的是一种端到端的AI原生化设计流程,而非零散地在各阶段用AI替代人类专家。

Anna特别指出,LLM虽然强大,但不足以独立解决芯片设计的所有问题。芯片设计包含大量与语言和代码无关的组件——例如图结构的优化、物理约束的满足等——这些需要专门的AI方法,包括图神经网络、强化学习等。因此Recursive Intelligence的策略是混合型、多面体的AI系统:在不同设计阶段使用最适合的AI技术。

七、AlphaChip争议与"苦涩的教训"

在芯片设计社区,AlphaChip曾引发争议。Anna坦率地分析了批评的来源:最激烈的反对并非来自可能被取代的布局工程师——他们只是需要大量数据才能被说服——而是来自在学术界深耕多年的研究者。当来自Google Brain、毫无EDA背景的团队用"更简单"的方法(大规模数据和计算)超越了耗费数年心血研发的传统方法时,这种伤害是真实的。

Anna将这种反应归结为"苦涩的教训"的又一例证:当来自外部领域的团队用学习型方法超越传统领域知识时,抵触是人之常情。但AlphaChip的积极影响同样深远:它催生了专门的AI芯片设计会议、启发了一整代博士论文、在DAC 2023获得了最佳论文奖,并在合成等芯片设计其他阶段得到了推广应用。

八、一年目标与人才战略

尽管成立仅数周,Recursive Intelligence已经吸引了顶尖人才加盟,包括来自Google、Anthropic等机构的资深研究者。公司在LLM预训练、中期训练、后训练、RL训练、评估、数据等各个方向都在招募。

Anna透露,一年内公司将发布首款产品——目标是加速芯片设计中最耗时的环节,并提供比现有产品更端到端的解决方案。与此同时,公司也在建立强有力的商业合作伙伴关系。


从Google的AlphaChip项目到现在的Recursive Intelligence,Anna Goldie和Azalia Mirhoseini正在挑战一个价值数千亿美元的产业。她们的方法论基础——强化学习、合成数据、端到端AI优化——与"苦涩的教训"一脉相承。如果她们成功,芯片设计将从少数巨头的特权变为普惠的基础设施,而AI进步的飞轮将以前所未有的速度转动。