为什么规模化无法解决AGI：从贝叶斯推理到因果模型的鸿沟

a16z · 2026-03-17🎬 在 YouTube 观看原视频 →

摘要

Vishal Misra 是一位来自哥伦比亚大学的网络科学研究者，他凭借一系列关于大语言模型（LLM）数学原理的论文在学术界和业界引起广泛关注。在本期 a16z 播客中，他系统阐述了自己的核心发现：LLM 的本质是一个巨大的稀疏矩阵的压缩表示，其在上下文学习（In-Context Learning）中执行的是严格的贝叶斯推理（Bayesian Inference）——这一结论通过他设计的"贝叶斯风洞"实验得到了数学上的精确验证。然而，Misra 指出，当前的深度学习架构仍停留在香农熵（Shannon Entropy）的关联层次，尚未跨入柯尔莫哥洛夫复杂度（Kolmogorov Complexity）和因果推理的领域。他提出一个检验 AGI 的"爱因斯坦测试"：用 1911 年之前的物理学数据训练一个模型，看它是否能独立推导出相对论。Misra 认为，通向 AGI 需要解决两个根本问题：实现持续学习中的可塑性（plasticity）以及从相关性推理跨越到因果建模（causal modeling），而单纯的规模扩张无法弥合这一鸿沟。

正文

一个"外行人"的 LLM 探索之旅

Vishal Misra 的 LLM 研究始于一个看似平凡的工程问题。2020 年，当 GPT-3 刚刚发布时，他获得了早期访问权限。彼时，他的目标是解决一个困扰 ESPN 旗下板球网站 Cricinfo 多年的难题。

Cricinfo 拥有一个名为 StatsGuru 的强大数据库，可以查询任何板球相关的统计数据——自 2000 年起就积累了海量数据。问题在于，普通球迷不会写 SQL 查询。当时的替代方案是一个网页表单，但为了覆盖所有查询可能性，这个表单堆积了二十多个下拉菜单、十几个复选框和近二十个文本输入框。界面令人生畏，导致几乎没有用户真正使用它。

Misra 的突破性思路是：设计一套领域特定语言（Domain Specific Language, DSL），用于将自然语言的板球统计查询转化为可执行的数据库查询。他收集了约 1500 个自然语言查询及其对应的 DSL，然后利用 GPT-3 的上下文学习能力——当有新的自然语言查询进来时，系统通过语义搜索找到最相似的几个历史查询作为示例（prefix），GPT-3 就能在从未见过这个 DSL 的情况下，将新查询转换为正确的 DSL 代码。

这一系统于 2021 年 9 月在 ESPN 正式上线，实际上构成了一次最早的检索增强生成（Retrieval-Augmented Generation, RAG）实践，远早于这个术语的流行。但最令 Misra 着迷的并非工程成功本身，而是一个根本性问题：为什么这能行？

他尝试阅读 Transformer 的 "Attention Is All You Need" 等论文，却发现无法从现有文献中找到令人满意的解释。于是，这位网络科学家决定用自己的方式——数学建模——来寻找答案。

巨型矩阵：LLM 的抽象模型

Misra 提出了一个直观的抽象框架来理解 LLM 的工作机制。

设想一个巨大的矩阵：每一行对应一个可能的提示（prompt），列则是词汇表（约 50,000 个 token）上的概率分布。LLM 的本质，就是给定一个提示后，生成下一个 token 的概率分布（后验分布，Posterior Distribution），然后从这个分布中采样。

以"protein"这个词为提示：它的后验分布中，"synthesis"和"shake"都有非零概率。如果模型采样了"synthesis"，就形成了"protein synthesis"——此时下一行的分布将高度集中在生物学相关词汇上；如果采样了"shake"，则下一行的分布将围绕健身房、运动等话题展开。Misra 指出，这正是一个经典的贝叶斯更新（Bayesian Updating）过程：以"protein"作为先验，一旦获得了"synthesis"或"shake"这个新证据，整个后验分布就被彻底重构。

这个矩阵的规模极为庞大。以 GPT 早期版本为例，词汇量 50,000，上下文窗口 8,000 个 token——所有可能的 token 组合所形成的行数，超过了全宇宙所有星系中的电子总数。然而，这个矩阵极度稀疏：绝大多数 token 组合是毫无意义的乱码，有效的行和列都只占极小比例。

因此，Misra 将 LLM 的本质总结为：对这个稀疏矩阵进行压缩表示（compressed representation），并在给定提示时尽可能逼近真实的后验分布。

上下文学习即贝叶斯推理

在第一个研究中，Misra 通过他的板球 DSL 系统观察到了令人信服的实验证据。

当 GPT-3 第一次看到"自然语言 → DSL"的配对示例时，在板球查询之后生成 DSL token 的概率极低——模型倾向于用英文单词来延续文本。但随着越来越多的示例被展示，DSL token 的概率持续上升。当最终给出新的查询时，正确的 DSL token 概率几乎达到了 100%。

"这就是实时贝叶斯更新的过程，"Misra 解释道，"模型不断看到新证据，更新自己对'接下来应该做什么'的信念。"

这一发现虽然直观有力，但遭遇了学术界的质疑。部分批评者认为："任何东西都可以被描述为贝叶斯，这不算什么新发现。"这正是贝叶斯学派和频率学派在统计学领域长期争论的延续。

于是，Misra 决定将论证从实证层面推进到数学证明层面。

贝叶斯风洞：数学上的严格证明

受航空航天工业中风洞（Wind Tunnel）概念的启发——即将飞行器置于隔离环境中进行地面测试，而非直接升空——Misra 和他在哥伦比亚大学的同事 Naman Agarwal 和 Siddharth Dalal 设计了一套"贝叶斯风洞"实验框架。

实验的核心设计如下：

采用空白架构（未经训练的 Transformer、Mamba、LSTM、MLP 等），排除训练数据的干扰；
给定一个任务空间，其组合复杂度远超模型参数量，使模型不可能通过记忆来解决问题；
同时，该任务的正确答案——贝叶斯后验分布——可以精确解析计算；
使用极小规模的模型进行训练，确保计算可行。

实验结果令人震惊：Transformer 架构匹配贝叶斯后验分布的精度达到了 10⁻³ 比特。经过 150,000 步训练（仅需半小时），模型的输出分布与真实的数学后验几乎完全一致。这无可辩驳地证明了：Transformer 在给定任务上执行的就是严格数学意义上的贝叶斯推理。

架构分类学：谁在"做贝叶斯"？

"贝叶斯风洞"不仅证明了 Transformer 的贝叶斯本质，还构建了一套架构的分类学。通过对梯度结构和几何形态的分析，Misra 发现不同架构在执行贝叶斯推理方面的能力存在显著层级：

Transformer：能够完成所有类型的贝叶斯任务，表现完美。
Mamba（状态空间模型）：能够完成大部分贝叶斯任务，表现较好。
LSTM：仅能完成部分贝叶斯任务。
MLP（多层感知机）：完全无法执行贝叶斯推理。

这并非训练数据的结果，而是架构本身的内在能力。数据决定模型学到什么，而架构决定了模型能否执行推理。

在第三篇论文中，Misra 将验证范围进一步扩展到拥有数亿参数的实际生产级 LLM。尽管由于训练数据极其庞杂，信号变得更加"嘈杂"，但在小模型中发现的几何特征和结构签名在大模型中同样清晰可辨——同样的机制在规模化后依然成立。

人类与 LLM：两条分岔的路

尽管 LLM 执行贝叶斯推理的能力令人印象深刻，Misra 强调人类与 LLM 之间存在两个根本性差异。

第一，可塑性（Plasticity）。 人类的大脑在数亿年的进化中形成了终身的突触可塑性——我们持续学习，持续更新内部表征。而 LLM 的权重在训练完成后就被冻结。在上下文学习的推理过程中，模型确实在进行贝叶斯更新，但一旦新的会话开始、上下文清空，所有的"学习"就消逝了——下一轮从零开始。

第二，目标函数。 人类进化的驱动力是"别死，繁殖"（don't die, reproduce）。这意味着我们的大脑在面临危险时不需要计算概率——当一支笔朝你飞来，你不会进行贝叶斯计算"这个物体击中我的概率是多少，会造成多大伤害"。你直接闪避。你在毫秒级别内完成了模拟（simulation）——你在脑海中构建了一个关于"物体飞向我"的因果模型。

而 LLM 的目标函数仅仅是"准确预测下一个 token"。Misra 直言不讳地反驳了当前业界的一些观点："Anthropic 做出了优秀的产品，Claude Code 很棒，Claude Works 也很棒。但它们是做矩阵乘法的硅粒，没有意识，没有内心独白。至于那些关于 LLM '试图欺骗'、'试图阻止自己被关闭'的恐怖故事——那不是架构的功能，那是训练数据的功能。你在 Reddit 和社交媒体上喂给它什么，它就复现什么。"

香农熵与柯尔莫哥洛夫复杂度：两重认知境界

Misra 用一个深刻的数学比喻来阐明 LLM 的根本局限：香农熵（Shannon Entropy）与柯尔莫哥洛夫复杂度（Kolmogorov Complexity）的区别。

以圆周率 π 为例。从香农熵的角度看，π 的数字序列是完全随机的，熵近于无穷——你无法通过相关性学习来预测下一位数字。但从柯尔莫哥洛夫复杂度的角度看，生成 π 的最短程序极其简短——几个公式就能无限精确地生成全部数字。

"深度学习仍处于香农熵的世界——它做的是关联（correlation），"Misra 断言，"它还没有跨越到柯尔莫哥洛夫复杂度和因果推理的世界。"

他引用 Judea Pearl 的因果层级理论：第一层是关联（association），即构建相关性模型——深度学习在这方面极为强大；第二层是干预（intervention）；第三层是反事实推理（counterfactual）。后两层需要构建因果模型，需要模拟能力，而当前的架构无法做到这一点。

爱因斯坦测试：什么是真正的 AGI？

基于以上分析，Misra 提出了一个简洁而严苛的 AGI 定义——他称之为"爱因斯坦测试"：

用 1911 年（或 1916 年）之前的全部物理学文献训练一个模型，看它是否能独立推导出相对论。

在爱因斯坦的时代，牛顿力学的裂缝已经清晰可见：水星的轨道异常难以用牛顿定律解释；迈克耳孙-莫雷实验（Michelson-Morley Experiment）精确测量了光速，却未能检测到"以太"介质对光速的任何影响；引力透镜效应、黑洞等问题也在暗示现有范式的不足。

然而，即使拥有所有这些"证据"，一个纯关联模型也无法从中推导出广义相对论。爱因斯坦之所以能做到，在于他拒绝现有公理，构建了一套全新的时空流形表示——一个极其简短的柯尔莫哥洛夫描述（Gμν = 8πTμν，即爱因斯坦场方程），从这一个方程出发，引力波、黑洞、水星轨道、GPS 的工作原理，一切都被统一解释了。

"如果你只是停留在牛顿力学的旧流形里，你可以看到这些相关性，但你无法提出一个能解释它们的流形。你需要一个新的表示。"Misra 的这个论断，不仅是对 LLM 当前能力的判断，更是对人类认知本质的深刻洞察：人类认知的核心能力不是找到更多相关性，而是发明新的表示空间。

从 Knuth 的实验看协作范式

Misra 还分析了计算机科学巨匠 Donald Knuth 最近引起轰动的一项实验：利用 LLM 解决哈密顿回路（Hamiltonian Cycle）问题。

Knuth 采用了一种巧妙的策略：让 LLM 逐个尝试不同奇数值 n 的哈密顿回路求解，每解决一个，就把学到的东西更新到"记忆"（上下文）中，然后继续推进下一个值。这本质上是一种"手动拼凑的可塑性"（hacked together plasticity）——没有真正改变权重，而是在上下文中持续累积经验。

但 Misra 指出，这项实验恰恰验证了他的框架：LLM 在已有的数学流形中（哈密顿回路相关知识在训练数据中已有充分覆盖）高效地探索了搜索空间，找到了大量可能的解法。这是香农熵层面的工作——通过大量计算寻找到正确的连接。然而，最终将这些碎片拼成完整证明的，仍然需要 Knuth 本人的大脑——也就是需要构建一个新的因果模型、一个新的表示流形。

"LLM 非常高效地在做香农部分，"Misra 总结道，"但柯尔莫哥洛夫部分是人类的。"

AGI 的两个必要条件

Misra 明确指出，通向 AGI 需要同时解决两个根本问题：

第一，持续学习中的可塑性。 当前的 LLM 在训练完成后权重即被冻结。要在真实世界中不断学习和适应，架构必须具备在更新权重时不引发灾难性遗忘（catastrophic forgetting）的能力。这是一个困难的平衡问题：新知识需要被吸收，但旧有重要的知识不能被覆盖导致模型退化为混沌状态。

第二，从相关性到因果性的跨越。 需要构建真正能够执行模拟和干预的因果模型，从香农熵世界进入到柯尔莫哥洛夫复杂度和因果推理的层面。Misra 认为 Pearl 的因果层级理论和 do-演算（do-calculus）提供了很好的理论框架——它系统地描述了从关联，经由干预，到达反事实推理的路径。

规模不是答案

面对业界"规模将解决一切"的主流叙事，Misra 给出了清晰的反驳："规模不会解决一切。你需要不同的架构。"

这并非要否认 LLM 的价值。Misra 明确表示 LLM 是解决方案的重要组成部分——它们在香农熵层面的能力极其强大，可以作为智能系统的关键组件。但同时，"必须有更多、更新的东西。"

至于研究界对他工作的接受度，Misra 保持低调。作为一个"外来的网络科学研究者"，他的论文最初可能受到领域壁垒的影响，但那些真正阅读过论文的人给出了极好的反馈。Google Research 近期的一篇论文试图通过强化学习训练 LLM 执行贝叶斯学习；也有研究者独立复现了贝叶斯风洞实验并得到了相同的结果。这表明这个方向正在获得越来越多的认可。

Misra 的下一步计划是沿着两条平行的轨道推进：可塑性研究和因果模型构建。他的目标不是继续记录 LLM 能做什么，而是——在已经理解"为什么"和"怎么做"的基础上——推动这些系统跨越到下一个层次。