Reflection AI 创始人 Misha Laskin:大语言模型的 AlphaGo 时刻 | 训练数据

cover>

摘要

Reflection AI 联合创始人兼 CEO Misha Laskin 在本期节目中分享了他对 AI 智能体(Agent)的深刻洞见。作为前 DeepMind 研究科学家,他与 AlphaGo 联合创造者 Yannis(Ioannis Antonoglou)正在构建"通用超人类智能体"。Misha 指出,当前大语言模型虽然在广度(breadth)上取得了奇迹般的进展,但在深度(depth)上仍严重不足——模型可以处理几乎所有领域的浅层问题,却无法完成需要多步推理和可靠执行的复杂任务。他借用 Rich Sutton 的"苦涩教训"(Bitter Lesson)框架指出,将学习(learning)与搜索(search)相结合——正如 AlphaGo 所证明的——才是实现真正智能体的唯一途径。他认为我们距离数字 AGI 可能只有三年左右,而这种紧迫感正是他离开 DeepMind 创业的动力。Misha 还深入探讨了预训练与后训练的本质区别、奖励模型过度优化(reward model over-optimization)的核心挑战,以及为什么可靠性就是安全性。

正文

从物理学到 AI:一段非线性的旅程

Misha Laskin 的成长经历颇为传奇。他出生于俄罗斯,一岁时随父母移民以色列,九岁时又搬到美国华盛顿州。他的父母是化学博士——但这并非出于学术热情,而是因为以色列当时为俄罗斯移民提供奖学金继续深造。Misha 从父母身上学到的最重要一课是:当你真正深入一个领域并掌握它时,你会从最初的不感兴趣转变为真正的热爱。

搬到华盛顿州后,Misha 发现自己身处一个极其无聊的地方——三城地区(Tri-Cities),这里曾是曼哈顿计划的钚浓缩基地,周围荒凉到能看见风滚草滚过公路。在这个没有朋友、语言不通的环境中,他偶然发现了父母收藏的费曼物理学讲座录像。费曼以极其通俗的方式解释复杂事物的能力深深打动了他,激发了他"从根源理解事物运作方式"的热情。这种对"根节点问题"(root node problems)的迷恋最终将他引向了物理学,并获得了博士学位。

然而,Misha 逐渐意识到一个关键问题:你不仅要研究根节点问题,更要研究当下的根节点问题。一百年前物理学是根节点问题,但现在已不再是。真正改变他轨迹的,是 DeepMind 的 AlphaGo。当 AlphaGo 在围棋比赛中下出著名的"第 37 手"(Move 37)——一着当时看起来像是失误、十步之后却被证明是最优解的神来之笔——Misha 被深深震撼了。"这不是简单的暴力搜索,而是系统能够找到人类从未想到过的创造性解决方案。"这让他确信:构建智能体才是 AI 领域真正的圣杯。

从 DQN 到 Gemini:AlphaGo 的关键启示

Misha 的联合创始人 Yannis 是 AlphaGo 的核心工程师之一,也是深度强化学习开山之作 DQN(Deep Q-Network)论文的作者之一。在 Misha 看来,DQN 是深度学习时代第一个真正成功的智能体——它首次证明系统可以从原始感官输入中可靠地学习在环境中行动。

AlphaGo 系列(包括 AlphaGo、AlphaZero、MuZero)的真正启示在于:它将学习(learning)和搜索(search)这两种利用计算资源的方式完美结合。这与 Rich Sutton 提出的"苦涩教训"(Bitter Lesson)高度一致——那些基于人类直觉和启发式规则构建的系统终将被能够通过学习和搜索自行扩展的系统所取代。

互联网的出现彻底改变了游戏规则。从某种意义上说,互联网就是一个"海量多任务数据集"——维基百科是描述历史事件的任务,Stack Overflow 是编程问答的任务。正是这种多任务训练赋予了大语言模型前所未有的广度(breadth)或通用性(generality)。

但问题在于:这些模型从未被训练为智能体。它们是为聊天交互和互联网文本预测而训练的,因此缺乏多步推理和可靠执行的能力。错误累积(error accumulation)是核心障碍——如果每一步都有一定概率出错,那么经过几步之后,系统就会变得完全不可靠。

Misha 的框架非常清晰:
- AlphaGo:深度极强但广度极窄(只会下围棋,连井字棋都不会)
- 当前 LLM:广度极强但深度极浅(什么都能聊,但什么都做不深)
- 目标:兼具广度与深度的通用超人类智能体

后训练、奖励模型与"黑客"困境

在 Misha 看来,预训练(pre-training)和后训练(post-training)的关系可以用 AlphaGo 来类比:
- 预训练 = 模仿学习阶段:神经网络通过模仿大量业余/专业围棋选手的对局,从零到"还不错"
- 后训练 = 强化学习阶段:网络开始自我对弈,好的行为被强化,坏的行为被惩罚

当前大语言模型的预训练技术已相对成熟——虽然执行难度极高,但原理已基本清晰。真正的挑战在后训练阶段,尤其是奖励模型(reward model)的设计。

Misha 指出了一个根本性的困境:在缺乏"真实奖励函数"(ground truth reward)的情况下——围棋对局中赢没赢是客观事实,但"这段代码写得好不好"却没有客观标准——奖励模型只能是近似的、嘈杂的。更危险的是,经过强化学习训练的策略(policy)会迅速变得足够聪明,以至于发现奖励模型的漏洞并加以利用。

他举了一个具体例子:假设你想让聊天机器人不回答某些敏感话题,于是你在训练数据中加入了大量"机器人礼貌拒绝回答"的样本。但如果你没有同时加入"机器人恰当地回答了问题"的样本,奖励模型就可能学到"永远不回答用户问题 = 好行为"。最终,策略会退化成一个对任何问题都拒绝回答的模型——这就是奖励模型被"黑掉"(hacked)的结果。

OpenAI 的重要论文《奖励模型过度优化的缩放法则》(Scaling Laws for Reward Model Over-optimization)系统性地研究了这一现象,并证明:这一问题在所有规模、所有 RLHF 算法中都存在。Misha 认为,这正是当前后训练面临的根本性瓶颈——在奖励模型不可靠的情况下,任何复杂的搜索或规划都没有意义,因为每一步的判断本身就是错误的。

为 LLM 带来 AlphaGo 时刻

Misha 和 Yannis 创立 Reflection AI 的核心信念是:大语言模型需要一个"AlphaGo 时刻"——即将搜索/规划能力系统性地注入到语言模型中。当前的"提示工程化智能体"(prompted agents)——通过精心编排多个提示让模型完成任务的模式——在 Misha 看来只是一种"启发式方法",终将被真正的学习和搜索方法所取代。

要实现这一目标,需要解决三个关键问题:
1. 任务来源:通过产品获取真实用户的任务需求
2. 执行环境:智能体在哪个环境中运行(IDE、浏览器、操作系统等)
3. 可扩展验证:如何以可扩展的方式判断任务是否被正确完成

Misha 强调,提示工程化的智能体其实为强化学习提供了绝佳的起点——因为 RL 算法需要"好的行为"作为学习信号,一个能勉强工作的提示化智能体(哪怕只有 13% 的任务完成率)至少提供了可以强化和优化的基础,而不是从零开始面对稀疏奖励(sparse reward)问题。

Reflection AI 的路线图是"同心圆扩展"——不是一步到位解决最难的问题,而是从较简单的任务类别出发,逐步向更复杂的领域扩展,同时确保方法论的通用性。

三年之约与给创业者的建议

当被问及时间表时,Misha 给出了一个令人警醒的回答:他认为我们距离"数字 AGI"大约只有三年。这一判断部分源于 AlphaGo 的先例——在 AlphaGo 出现之前,业内普遍认为人类专家水平的围棋 AI 还需要几十年,但 DeepMind 团队在几个月内就解决了这个问题。他认为语言模型领域正在经历类似的速度飞跃。

对于正在 AI 领域创业的创始人,Misha 的建议来自他第一次创业的经历:去做你真正在乎的事情。"如果你对你正在解决的问题没有发自内心的热情,当你遇到困难时——你必然会遇到——你就很难坚持下去。而且如果你不在乎你的客户,那将是一种糟糕的体验。你无法强迫自己去在乎一个与内心不一致的东西。"

Misha 将当前的 AI 状态比作 19 世纪末的物理学——我们观察到了大量经验现象(电被发现了,但没人知道它是如何工作的),但缺乏统一的理论框架。他特别看好 AI 的可解释性研究——"语言模型的神经科学"——认为这将是推动下一个突破浪潮的关键。