OpenAI 的 Noam Brown、Ilge Akkaya 和 Hunter Lightman 谈 o1 与教会 LLM 更好地推理

cover Sequoia Capital · 2024-10-02🎬 在 YouTube 观看原视频 →>

摘要

OpenAI o1 研究员 Noam Brown、Ilge Akkaya 和 Hunter Lightman 在本期深度访谈中分享了 Project Strawberry（即 o1）背后的研究历程和技术理念。o1 是 OpenAI 首次在通用推理时计算（Inference-Time Compute）方向的重大尝试，三位研究者详细阐述了推理的本质定义、o1 的训练方法，以及推理时扩展定律（Inference-Time Scaling Law）对整个 AI 领域的深远意义。

Noam Brown 将推理定义为"那些能从更长时间思考中获益的问题"。他区分了系统一（System 1，自动化、本能性反应）和系统二（System 2，缓慢、过程驱动的思考），并用数独谜题作为典型例证：理论上，如果有无限时间穷举可能性，最终总能找到正确解答。这种"生成器-验证器差距"（Generator-Verifier Gap）的大小决定了推理的价值空间。

团队分享了一个关键转折点：当模型在数学评估中首次展现出"回溯"（Backtracking）行为——说出"等等，这是错的，让我退一步重新思考"时——三位研究者的信念从怀疑转为坚定。他们强调，o1 的重大意义不仅在于当前的能力，更在于它代表了一个全新的、尚未被充分开发的扩展维度。就像预训练扩展定律曾驱动 GPT 系列的跨越式进步，推理时扩展可能将 AI 的上限推向远超目前认知的高度。

正文

什么是推理？系统一与系统二

Noam Brown 开门见山地给出了他对推理的定义："有些问题能从更长时间思考中获益。这就是人类思维中经典的'系统一 vs 系统二'框架——系统一是自动化的、本能的反应，系统二是更缓慢、更过程驱动的反应。很多任务并不因更多思考时间而受益。比如我问你'不丹的首都是什么？'，你想两年也不会提高准确率。但对于数独谜题——理论上你可以穷举大量可能性，其正确解非常容检验证——如果你有足够多的时间，最终一定能找到答案。"

他将所有问题置于一个连续谱上：从极容易验证（相对生成而言）——如数独，到验证难度与生成难度相等——如猜测首都名称。o1 的进步正是通过增加推理时间将这个谱上的很多问题向"更容易解决"的方向推移。

从 AlphaGo 到 o1：推理泛化的突破

Noam 从自己早期的扑克 AI 研究和 AlphaGo 的经验中提炼出一个关键洞见：AlphaGo 的核心优势不仅仅在于深度强化学习，还在于它"在行动之前思考很长时间"——它会花费约 30 秒来计算每一步棋。如果强制其瞬间做出决策，它的表现实际上不如顶级人类棋手。"AlphaGo 显然从额外思考时间中获得了巨大收益，但问题是它的思考方式——蒙特卡洛树搜索（MCTS）——是为围棋这个特定领域高度定制的。"

o1 的令人兴奋之处在于：它是通用的。它的思考方式可以在许多不同领域中使用，而这正是通过用户的实际反馈得到验证的。Hunter 补充道："语言模型的接口是文本接口，这意味着它们可以适配各种不同类型的问题。我们找到了一种在这个通用接口上进行强化学习的方法，这才是真正令人兴奋的事情。"

信念之路：从怀疑到坚定

三位研究者坦率地分享了各自信念演变的历程。Hunter Lightman 加入 OpenAI 约两年半，大部分时间都在尝试让模型更好地解决数学问题。转折点出现在一次训练后："这个模型在我们所有数学评估上的得分都超过了我们之前的任何尝试——包括我们精心构建的专用系统。当我们阅读它的思维链（Chain of Thought）时，发现它具有了一种不同的特质：当它卡住时，它会说'等等，这是错的，让我退一步重新思考'。"

Hunter 将"回溯"（Backtracking）视为长期等待的关键信号。"我一直在等一个自回归语言模型展现出回溯行为——因为自回归模型本质上只是'预测下一个 token、再下一个 token'。所以当我既看到了新高的数学测试分数，又看到了带有回溯的思维链，那一刻我意识到各种要素正在以我未曾预料的方式汇聚。我需要更新我的信念。"

Ilge Akkaya 在 OpenAI 工作五年半，坦言自己"多次判断失误"。她最初认为具身 AI 和机器人是通往 AGI 的路径，但 ChatGPT 的出现成为范式转变。对于 o1，"当模型开始能够思考更长时间，它几乎是以涌现的方式发展出了回溯、自我纠正等能力——这些正是我们一直在讨论如何让模型具备的能力。看到它从如此简洁、可扩展的方法中自然产生，对我来说是那个'一切变得非常清晰'的时刻。"

Noam Brown 则被团队戏称为"从一开始就最坚信推理时计算力量的人"。Hunter 回忆说："我们早期的每一次一对一讨论，Noam 都在谈推理时计算及其威力。项目进行中多次，Noam 会说'为什么不让模型思考更长时间？'然后我们照做了，模型就变得更好了。他就用那种'你们之前怎么没想到'的眼神看着我们。"

推理时扩展定律：o1 最深远的贡献

Noam 认为，o1 最重要的启示不是它今天能做什么，而是它对未来意味着什么。"人们普遍担忧 AI 可能撞墙或进入平台期——预训练如此昂贵且越来越昂贵，是否存在足够的数据继续训练？o1 特别是 o1-preview 的核心意义在于：我们拥有了一条全新、远未被开发的扩展维度。我认为这是一个重大事件，意味着天花板远比许多人意识到的要高得多。"

这个推理时扩展定律图表被 Noam 称为"从研究报告中最重要的一张图"。他惊讶且欣慰地看到，有这么多人立刻理解了这个信号的深远意义。"这类似于预训练扩展定律——看到 GPT-2 到 GPT-3 时，你很清楚'只要投入更多数据和 GPU 它就会变得更好'——但即便如此，从 GPT-2 到 GPT-3 到 GPT-4 仍然花了好几年。类似的，推理时扩展的工程挑战同样巨大。"

当被问到"让模型思考几个小时、几个月甚至几年会发生什么"时，Noam 引用阿西莫夫的短篇小说《最后的问题》："故事中，人们向超级计算机提出关于逆转熵的问题，计算机说'我需要更多时间思考'。一百年后、一千年后、一万年后，它依然在思考。'目前仍然没有足够的信息来给出有意义的答案。'——但我们还没有让 o1 思考那么久。"

stem 优势与智能极限

在 OpenAI 发布的评估中，o1 在 STEM 领域的表现显著优于之前的模型。Noam 解释："STEM 问题恰恰属于我们所说的'验证比生成更容易'的硬推理问题范畴。这就是我们看到最大提升的原因。"

Hunter 补充了一个引人注目的细节：o1 通过了 OpenAI 研究工程师面试，具有相当高的通过率。当被问到"是否意味着 OpenAI 将来会雇佣 o1 而不是人类工程师"时，他笑道："我们还没到那一步。o1 已经在我们代码仓库中提交了几个 PR，在某种意义上它确实在扮演软件工程师的角色。不过目前它只能思考几分钟，而我写代码时通常会思考更久。随着我们沿推理时扩展的趋势线继续推进，也许某一天你可以通过 OpenAI 是否下线了所有招聘页面来判断我们是否已经内部实现了 AGI——但那时公司要么做得很好，要么很差。"

关于"智能天花板"，Ilge 提出了重要提醒："所谓 120 IQ 是针对某些特定测试——这绝不意味着它在所有我们关心的领域都具备 120 IQ 级别的推理能力。在某些方面——比如创意写作——它的表现低于 40。当你看到它在 GPQA（面向博士生的问答基准）上超越很多博士生时，这并不意味着它在所有可想象的维度上都比博士更聪明。人类能做的事情中，有太多 AI 目前还做不到。"

思维链为何被隐藏？

o1 发布博客中解释，思维链被隐藏部分出于竞争原因，部分出于安全考虑。当被问及这一决策是否有争议时，Noam 直言"我认为没有争议——就像你不会想要分享一个前沿模型的权重一样，分享模型的思考过程同样存在风险。"

Ilge 举例解释了什么是思维链："如果你被要求解一个积分，大多数人会需要纸和笔，逐步展示从复杂方程出发、经过简化步骤、最终得到答案的过程。答案可能只是一个数，但如何到达那里就是思维链。"

o1 mini 与未来方向

o1 mini 的推出引起了极大兴奋——它保留了核心推理能力，同时以更低成本、更快速度运行。Hunter 表示："对于研究来说，o1 mini 让我们可以更快迭代。对于更广泛的生态系统中的开发者和用户，也是如此。更快的模型就是更有用的模型。"

当被问到对 o2、o3 最期待什么时，Noam 回答："我们还没有到灵感冒竭的阶段。"Ilge 补充道："作为研究者，我们显然对我们能理解的领域有偏见。但通过产品的实际使用，我们将收到来自完全不同领域的用例反馈。也许我们会说'这是一个值得推动的有趣方向'——这可能远超我们的想象。"

快速问答

最大的误解：项目名称 "Strawberry" 的由来。"当这个名字泄露时，人们认为是源于那个流行的'strawberry 中有几个 r'的测试问题。实际上那完全是巧合——命名唯一的原因是当时会议室里有人在吃一盒草莓。"
最公平的批评："o1 绝对不是在每一件事上都更好。它仍然有很多奇怪的边界情况需要磨合。"
给创业者的建议：Hunter 坦言"我希望他们能自己探索出答案——这也是我们发布 o1-preview 的核心理由之一：将它交到人们手中，看他们会如何创造性地使用它。"