为什么规模化无法解决AGI:从贝叶斯推理到因果模型的鸿沟

摘要

Vishal Misra 是一位来自哥伦比亚大学的网络科学研究者,他凭借一系列关于大语言模型(LLM)数学原理的论文在学术界和业界引起广泛关注。在本期 a16z 播客中,他系统阐述了自己的核心发现:LLM 的本质是一个巨大的稀疏矩阵的压缩表示,其在上下文学习(In-Context Learning)中执行的是严格的贝叶斯推理(Bayesian Inference)——这一结论通过他设计的"贝叶斯风洞"实验得到了数学上的精确验证。然而,Misra 指出,当前的深度学习架构仍停留在香农熵(Shannon Entropy)的关联层次,尚未跨入柯尔莫哥洛夫复杂度(Kolmogorov Complexity)和因果推理的领域。他提出一个检验 AGI 的"爱因斯坦测试":用 1911 年之前的物理学数据训练一个模型,看它是否能独立推导出相对论。Misra 认为,通向 AGI 需要解决两个根本问题:实现持续学习中的可塑性(plasticity)以及从相关性推理跨越到因果建模(causal modeling),而单纯的规模扩张无法弥合这一鸿沟。

正文

一个"外行人"的 LLM 探索之旅

Vishal Misra 的 LLM 研究始于一个看似平凡的工程问题。2020 年,当 GPT-3 刚刚发布时,他获得了早期访问权限。彼时,他的目标是解决一个困扰 ESPN 旗下板球网站 Cricinfo 多年的难题。

Cricinfo 拥有一个名为 StatsGuru 的强大数据库,可以查询任何板球相关的统计数据——自 2000 年起就积累了海量数据。问题在于,普通球迷不会写 SQL 查询。当时的替代方案是一个网页表单,但为了覆盖所有查询可能性,这个表单堆积了二十多个下拉菜单、十几个复选框和近二十个文本输入框。界面令人生畏,导致几乎没有用户真正使用它。

Misra 的突破性思路是:设计一套领域特定语言(Domain Specific Language, DSL),用于将自然语言的板球统计查询转化为可执行的数据库查询。他收集了约 1500 个自然语言查询及其对应的 DSL,然后利用 GPT-3 的上下文学习能力——当有新的自然语言查询进来时,系统通过语义搜索找到最相似的几个历史查询作为示例(prefix),GPT-3 就能在从未见过这个 DSL 的情况下,将新查询转换为正确的 DSL 代码。

这一系统于 2021 年 9 月在 ESPN 正式上线,实际上构成了一次最早的检索增强生成(Retrieval-Augmented Generation, RAG)实践,远早于这个术语的流行。但最令 Misra 着迷的并非工程成功本身,而是一个根本性问题:为什么这能行?

他尝试阅读 Transformer 的 "Attention Is All You Need" 等论文,却发现无法从现有文献中找到令人满意的解释。于是,这位网络科学家决定用自己的方式——数学建模——来寻找答案。

巨型矩阵:LLM 的抽象模型

Misra 提出了一个直观的抽象框架来理解 LLM 的工作机制。

设想一个巨大的矩阵:每一行对应一个可能的提示(prompt),列则是词汇表(约 50,000 个 token)上的概率分布。LLM 的本质,就是给定一个提示后,生成下一个 token 的概率分布(后验分布,Posterior Distribution),然后从这个分布中采样。

以"protein"这个词为提示:它的后验分布中,"synthesis"和"shake"都有非零概率。如果模型采样了"synthesis",就形成了"protein synthesis"——此时下一行的分布将高度集中在生物学相关词汇上;如果采样了"shake",则下一行的分布将围绕健身房、运动等话题展开。Misra 指出,这正是一个经典的贝叶斯更新(Bayesian Updating)过程:以"protein"作为先验,一旦获得了"synthesis"或"shake"这个新证据,整个后验分布就被彻底重构。

这个矩阵的规模极为庞大。以 GPT 早期版本为例,词汇量 50,000,上下文窗口 8,000 个 token——所有可能的 token 组合所形成的行数,超过了全宇宙所有星系中的电子总数。然而,这个矩阵极度稀疏:绝大多数 token 组合是毫无意义的乱码,有效的行和列都只占极小比例。

因此,Misra 将 LLM 的本质总结为:对这个稀疏矩阵进行压缩表示(compressed representation),并在给定提示时尽可能逼近真实的后验分布。

上下文学习即贝叶斯推理

在第一个研究中,Misra 通过他的板球 DSL 系统观察到了令人信服的实验证据。

当 GPT-3 第一次看到"自然语言 → DSL"的配对示例时,在板球查询之后生成 DSL token 的概率极低——模型倾向于用英文单词来延续文本。但随着越来越多的示例被展示,DSL token 的概率持续上升。当最终给出新的查询时,正确的 DSL token 概率几乎达到了 100%。

"这就是实时贝叶斯更新的过程,"Misra 解释道,"模型不断看到新证据,更新自己对'接下来应该做什么'的信念。"

这一发现虽然直观有力,但遭遇了学术界的质疑。部分批评者认为:"任何东西都可以被描述为贝叶斯,这不算什么新发现。"这正是贝叶斯学派和频率学派在统计学领域长期争论的延续。

于是,Misra 决定将论证从实证层面推进到数学证明层面。

贝叶斯风洞:数学上的严格证明

受航空航天工业中风洞(Wind Tunnel)概念的启发——即将飞行器置于隔离环境中进行地面测试,而非直接升空——Misra 和他在哥伦比亚大学的同事 Naman Agarwal 和 Siddharth Dalal 设计了一套"贝叶斯风洞"实验框架。

实验的核心设计如下:

实验结果令人震惊:Transformer 架构匹配贝叶斯后验分布的精度达到了 10⁻³ 比特。经过 150,000 步训练(仅需半小时),模型的输出分布与真实的数学后验几乎完全一致。这无可辩驳地证明了:Transformer 在给定任务上执行的就是严格数学意义上的贝叶斯推理。

架构分类学:谁在"做贝叶斯"?

"贝叶斯风洞"不仅证明了 Transformer 的贝叶斯本质,还构建了一套架构的分类学。通过对梯度结构和几何形态的分析,Misra 发现不同架构在执行贝叶斯推理方面的能力存在显著层级:

这并非训练数据的结果,而是架构本身的内在能力。数据决定模型学到什么,而架构决定了模型能否执行推理。

在第三篇论文中,Misra 将验证范围进一步扩展到拥有数亿参数的实际生产级 LLM。尽管由于训练数据极其庞杂,信号变得更加"嘈杂",但在小模型中发现的几何特征和结构签名在大模型中同样清晰可辨——同样的机制在规模化后依然成立。

人类与 LLM:两条分岔的路

尽管 LLM 执行贝叶斯推理的能力令人印象深刻,Misra 强调人类与 LLM 之间存在两个根本性差异。

第一,可塑性(Plasticity)。 人类的大脑在数亿年的进化中形成了终身的突触可塑性——我们持续学习,持续更新内部表征。而 LLM 的权重在训练完成后就被冻结。在上下文学习的推理过程中,模型确实在进行贝叶斯更新,但一旦新的会话开始、上下文清空,所有的"学习"就消逝了——下一轮从零开始。

第二,目标函数。 人类进化的驱动力是"别死,繁殖"(don't die, reproduce)。这意味着我们的大脑在面临危险时不需要计算概率——当一支笔朝你飞来,你不会进行贝叶斯计算"这个物体击中我的概率是多少,会造成多大伤害"。你直接闪避。你在毫秒级别内完成了模拟(simulation)——你在脑海中构建了一个关于"物体飞向我"的因果模型。

而 LLM 的目标函数仅仅是"准确预测下一个 token"。Misra 直言不讳地反驳了当前业界的一些观点:"Anthropic 做出了优秀的产品,Claude Code 很棒,Claude Works 也很棒。但它们是做矩阵乘法的硅粒,没有意识,没有内心独白。至于那些关于 LLM '试图欺骗'、'试图阻止自己被关闭'的恐怖故事——那不是架构的功能,那是训练数据的功能。你在 Reddit 和社交媒体上喂给它什么,它就复现什么。"

香农熵与柯尔莫哥洛夫复杂度:两重认知境界

Misra 用一个深刻的数学比喻来阐明 LLM 的根本局限:香农熵(Shannon Entropy)与柯尔莫哥洛夫复杂度(Kolmogorov Complexity)的区别。

以圆周率 π 为例。从香农熵的角度看,π 的数字序列是完全随机的,熵近于无穷——你无法通过相关性学习来预测下一位数字。但从柯尔莫哥洛夫复杂度的角度看,生成 π 的最短程序极其简短——几个公式就能无限精确地生成全部数字。

"深度学习仍处于香农熵的世界——它做的是关联(correlation),"Misra 断言,"它还没有跨越到柯尔莫哥洛夫复杂度和因果推理的世界。"

他引用 Judea Pearl 的因果层级理论:第一层是关联(association),即构建相关性模型——深度学习在这方面极为强大;第二层是干预(intervention);第三层是反事实推理(counterfactual)。后两层需要构建因果模型,需要模拟能力,而当前的架构无法做到这一点。

爱因斯坦测试:什么是真正的 AGI?

基于以上分析,Misra 提出了一个简洁而严苛的 AGI 定义——他称之为"爱因斯坦测试":

用 1911 年(或 1916 年)之前的全部物理学文献训练一个模型,看它是否能独立推导出相对论。

在爱因斯坦的时代,牛顿力学的裂缝已经清晰可见:水星的轨道异常难以用牛顿定律解释;迈克耳孙-莫雷实验(Michelson-Morley Experiment)精确测量了光速,却未能检测到"以太"介质对光速的任何影响;引力透镜效应、黑洞等问题也在暗示现有范式的不足。

然而,即使拥有所有这些"证据",一个纯关联模型也无法从中推导出广义相对论。爱因斯坦之所以能做到,在于他拒绝现有公理,构建了一套全新的时空流形表示——一个极其简短的柯尔莫哥洛夫描述(Gμν = 8πTμν,即爱因斯坦场方程),从这一个方程出发,引力波、黑洞、水星轨道、GPS 的工作原理,一切都被统一解释了。

"如果你只是停留在牛顿力学的旧流形里,你可以看到这些相关性,但你无法提出一个能解释它们的流形。你需要一个新的表示。"Misra 的这个论断,不仅是对 LLM 当前能力的判断,更是对人类认知本质的深刻洞察:人类认知的核心能力不是找到更多相关性,而是发明新的表示空间。

从 Knuth 的实验看协作范式

Misra 还分析了计算机科学巨匠 Donald Knuth 最近引起轰动的一项实验:利用 LLM 解决哈密顿回路(Hamiltonian Cycle)问题。

Knuth 采用了一种巧妙的策略:让 LLM 逐个尝试不同奇数值 n 的哈密顿回路求解,每解决一个,就把学到的东西更新到"记忆"(上下文)中,然后继续推进下一个值。这本质上是一种"手动拼凑的可塑性"(hacked together plasticity)——没有真正改变权重,而是在上下文中持续累积经验。

但 Misra 指出,这项实验恰恰验证了他的框架:LLM 在已有的数学流形中(哈密顿回路相关知识在训练数据中已有充分覆盖)高效地探索了搜索空间,找到了大量可能的解法。这是香农熵层面的工作——通过大量计算寻找到正确的连接。然而,最终将这些碎片拼成完整证明的,仍然需要 Knuth 本人的大脑——也就是需要构建一个新的因果模型、一个新的表示流形。

"LLM 非常高效地在做香农部分,"Misra 总结道,"但柯尔莫哥洛夫部分是人类的。"

AGI 的两个必要条件

Misra 明确指出,通向 AGI 需要同时解决两个根本问题:

第一,持续学习中的可塑性。 当前的 LLM 在训练完成后权重即被冻结。要在真实世界中不断学习和适应,架构必须具备在更新权重时不引发灾难性遗忘(catastrophic forgetting)的能力。这是一个困难的平衡问题:新知识需要被吸收,但旧有重要的知识不能被覆盖导致模型退化为混沌状态。

第二,从相关性到因果性的跨越。 需要构建真正能够执行模拟和干预的因果模型,从香农熵世界进入到柯尔莫哥洛夫复杂度和因果推理的层面。Misra 认为 Pearl 的因果层级理论和 do-演算(do-calculus)提供了很好的理论框架——它系统地描述了从关联,经由干预,到达反事实推理的路径。

规模不是答案

面对业界"规模将解决一切"的主流叙事,Misra 给出了清晰的反驳:"规模不会解决一切。你需要不同的架构。"

这并非要否认 LLM 的价值。Misra 明确表示 LLM 是解决方案的重要组成部分——它们在香农熵层面的能力极其强大,可以作为智能系统的关键组件。但同时,"必须有更多、更新的东西。"

至于研究界对他工作的接受度,Misra 保持低调。作为一个"外来的网络科学研究者",他的论文最初可能受到领域壁垒的影响,但那些真正阅读过论文的人给出了极好的反馈。Google Research 近期的一篇论文试图通过强化学习训练 LLM 执行贝叶斯学习;也有研究者独立复现了贝叶斯风洞实验并得到了相同的结果。这表明这个方向正在获得越来​​越多的认可。

Misra 的下一步计划是沿着两条平行的轨道推进:可塑性研究和因果模型构建。他的目标不是继续记录 LLM 能做什么,而是——在已经理解"为什么"和"怎么做"的基础上——推动这些系统跨越到下一个层次。