DeepMind 的 Pushmeet Kohli 论 AI 的科学革命

cover>

摘要

当 AI 不再只是回答问题,而是开始主动提出问题时,科学发现将发生怎样的变革?在本期对话中,DeepMind 的 Pushmeet Kohli 深入探讨了 Alpha Evolve——一个突破性的进化式 AI 系统,它能够发现全新的算法,而不仅仅是在已知模板中填空。Kohli 揭示了将大语言模型 (Large Language Model, LLM) 与评估器耦合后所创造的非凡能力:AI 能够解决几十年来悬而未决的数学问题,生成人类可读的代码,并且其性能超越人类专家设计的方案。

这场对话的核心主题是"生成器-验证器"架构的崛起。从 AlphaFold 改变蛋白质结构预测,到 FunSearch 发现隐藏的数学对称性,再到 Alpha Evolve 在更广阔的算法空间中搜索,DeepMind 正在系统性地构建一种全新的科学方法。Kohli 分享了一个令人动容的故事:一位生物学家花了十年时间研究一种蛋白质的结构,AlphaFold 2 却在几秒内给出了完美答案——这不仅是加速,更是对科学研究的民主化。Kohli 认为,我们正身处 AI 加速科学发现的时代中心,而最大的瓶颈不再是计算能力,而是如何将数字世界的发现有效验证并转化为现实世界的应用。

正文

引言:当 AI 开始提问

主持人开场便提出了一个尖锐的问题:Alpha Evolve 是否标志着 AI 能够做出真正新颖科学发现的分水岭时刻?Kohli 给予了肯定的回答,称这确实是一个关键的里程碑。他指出,当大语言模型与评估器 (evaluator) 结合时,系统展现出了前所未有的能力——不仅能够发现新算法,还能证明数学家们研究多年的新数学结果。

评估器之于大模型,犹如科学方法之于研究者

Kohli 详细阐述了"评估器"这个关键概念。回顾 DeepMind 的 AI 科学研究历史,AlphaFold 是 AI 在科学领域取得突破的典范——它在 2021 年底发布后,于 2024 年获得了诺贝尔奖。但真正的问题在于:大语言模型和基础模型如何影响科学?

大约两年前,DeepMind 团队开发了名为 FunSearch 的智能体,它将 LLM 与评估器相结合。评估器的作用是帮助 LLM 判断自己提出的新猜想或新想法究竟是幻觉 (hallucination),还是真正有价值的洞见。Kohli 提出了一个发人深省的观点:在这个系统中,"幻觉"反而成为了一种优势——因为有些所谓的幻觉实际上是无人想到过的精妙见解。这正是评估器存在的意义:它提供了一种搜索协议,与 LLM 协同工作,从而产生真正有影响力的全新发现。

FunSearch 到 Alpha Evolve:从填空到自由探索

FunSearch 与 Alpha Evolve 之间的差异体现了技术的跨越式进步。FunSearch 要求人类研究者提供一个模板,LLM 在这个模板中尝试补全一个小的函数。虽然它能够发现数学家长期研究的全新算法,但这一限制性前提束缚了其探索空间。

Alpha Evolve 则完全移除了这个限制。它不再局限于填充几行代码,而是能够查看完整的算法本身——非常庞大的代码片段——并在长时间内进行优化。更关键的是,FunSearch 需要大量的函数评估才能取得新发现,而 Alpha Evolve 只需更少的函数调用,就能更快地发现新算法。这一效率提升来自于底层 Gemini 模型的持续进化。

Gemini 的角色:速度与精度

Kohli 解释了 Gemini 模型(包括 Flash 和 Pro 版本)在 Alpha Evolve 架构中的分工。随着 Gemini 各代模型的改进,其对代码的理解能力大幅提升。如果提案生成器能够有效理解代码,它不仅能生成语法正确的提案,还能生成在语义上真正试图解决任务的方案——然后系统再从中采样不同的解决路径。

Kohli 将搜索过程分解为两个要素:生成提案的速度和评估提案的速度。Gemini Flash 能够高效快速地完成这些任务,这使得在极其困难的数学和计算问题空间中搜索正确解决方案的样本效率大幅提升。

Alpha Evolve 的通用性

Alpha Evolve 的"广度"体现在两个维度上。首先,它可以搜索完整的算法,而不仅仅是代码片段。其次,它极其通用,不限于特定语言——它可以在 C++ 中搜索,也可以在 Python 中搜索,甚至可以在 Verilog(用于芯片设计的语言)中搜索。唯一的约束条件是:你需要一个能够快速评估提案好坏的评价函数。

生成器-验证器范式:共识架构

主持人观察到,Alpha Evolve 的架构——生成一批算法候选、评估它们,然后进化式地决定保留哪些并继续前进——在宏观上呼应了科学方法本身。Kohli 进一步指出,这种"生成器-验证器"范式正在整个 AI 领域回响,无论是非常通用的模型,还是针对特定应用的专用 AI 系统。他将此与 DeepMind 的另一个智能体 Co-Scientist 联系起来:在 Co-Scientist 中,Gemini 扮演了科学学术过程中的所有角色——假设生成者、批评者、审稿人、排名者和编辑——一个多智能体系统产生的行为远远超越了单个 Gemini 模型的回答。

Kohli 解释了这个现象背后的直觉:有时,有价值的洞见隐藏在分布的长尾中,而 Gemini 评估哪个方案更好的能力,要强于它提出全新想法的能力。这正如计算机科学中的一个经典现象:判断一个解是否正确比找出这个解要容易得多。

发现的优雅:人类可读的代码

Kohli 分享了 FunSearch 在"帽子集问题"(cap set problem)上的发现。这个问题曾引起著名数学家陶哲轩 (Terence Tao) 的兴趣。当数学家 Jordan Ellenberg 查看 FunSearch 生成的程序时,他发现代码中蕴含了此前未被识别的对称性——程序通过利用这些隐藏的对称性获得了更好的解。这正是 DeepMind 选择让 AI 生成代码而非直接输出神经网络策略的核心原因:可解释性。工程师更希望获得一段可以理解和调试的代码,而非一个黑箱神经网络。

数学作为黄金基准

Kohli 解释了为什么数学是测试 AI 科学发现能力的完美领域。数学具有精确性——你可以清楚地知道是否找到了目标属性。例如,对于 4×4 矩阵乘法,此前已知需要 49 次乘法(由 Strassen 提出),而 Alpha Tensor 证明只需 48 次。这是一个无可争议的精确结果,不需要 RLHF(基于人类反馈的强化学习)或 LMS 评分来判断其质量——你只需知道"我们做得更好了"。

从数字世界到物理世界

Kohli 讨论了 Alpha Evolve 在现实世界中的应用前景。无论是在数据中心优化、芯片设计(Verilog),还是材料科学领域,只要存在一个可靠的评估函数——"你给我一个程序,我可以明确告诉你它有多好"——Alpha Evolve 就能发挥作用。因为与人类程序员不同(人类可能尝试 10 个、100 个或 1000 个方案),AI 可以持续不断地探索,提出完全反直觉的、人类从未想象过的策略。

关于人类是否可以成为评估者,Kohli 认为这在理论上是可行的,但核心问题是规模——你能评估多少?评估的准确性如何?在实际操作中,Alpha Evolve 使用的是程序化评估器。但他设想了一个场景:当多个方案在性能上等效时,最终的评判标准是"优雅性"和"可理解性"——这本质上是一个主观的人类判断。

AlphaFold 的故事:加速、进步与民主化

Kohli 用 AlphaFold 的故事回应了关于 AI 如何改变行业角色的担忧。在 AlphaFold 2 发布之前,确定一个蛋白质的结构可能需要 1-5 年时间和 100 万美元。有些蛋白质因为极其困难,人们研究了 10-20 年仍无结果——因此只有约 37% 的人类蛋白质结构是已知的。

AlphaFold 2 带来了三重变革:进步(advance)——原本需要同步辐射加速器和六个月的实验现在只需一秒;加速(accelerate)——整体研究进程大幅加快;民主化(democratize)——在拉丁美洲、南亚或非洲研究被忽视热带病的科学家,现在可以免费获取他们研究的寄生虫蛋白质结构。

这让结构生物学家们的角色发生了转变:蛋白质结构不再稀缺,所以他们转而专注于下一个层次的问题——如何利用这些知识来治疗疾病和设计更好的药物。

瓶颈与未来:验证和可及性

Kohli 指出了两个关键的瓶颈。第一是验证——弥合数字世界与现实世界之间的鸿沟。第二个瓶颈是可及性——即使拥有最先进的技术,如果人们不知道如何使用,就无法产生预期的社会影响。

他以 AlphaFold 的成功为证:AlphaFold 不仅预测准确,还非常擅长理解自身预测的局限性。当它犯错时,它会"举手"承认——这种校准的不确定性 (calibrated uncertainty) 正是当前许多模型所缺乏的,也是 AlphaFold 被广泛采用的关键因素。

快速问答