9 年到 AGI：OpenAI 的 Dan Roberts 谈从思维模型到模拟爱因斯坦

cover Sequoia Capital · 2025-05-08🎬 在 YouTube 观看原视频 →>

摘要

Dan Roberts 在本次演讲中提出了一个大胆的论断：按照当前 AI 任务时长的指数增长趋势——每 7 个月翻一倍——我们距离一个能够"发现广义相对论"的 AI 模型大约还需要 9 年时间。他以一个精巧的思想实验为锚点：假设让 1907 年的爱因斯坦（尚在研究广义相对论之前）回答广义相对论的期末考试题——这花了人类历史上最伟大的物理学家 8 年时间。今天，OpenAI 的 o3 模型思考约 1 分钟后已能正确回答类似的物理问题。但真正的目标不是复现教科书级的计算，而是让 AI 对科学知识体系做出重大原创贡献。Dan Roberts 揭示了一个被主流叙事忽视的趋势：强化学习（Reinforcement Learning, RL）正在从 AI 训练的"蛋糕顶上的小樱桃"变为碾压整个蛋糕的巨型樱桃——预训练与强化学习的算力分配将被彻底颠覆。当模型思考的时间从 1 分钟扩展到数小时、数天、数月，AI 将完成从"复现者"到"发现者"的蜕变。

正文

思维模型的出现：一条全新的扩展曲线

Dan Roberts 开场提到了 OpenAI 在 2024 年 9 月发布的 o1 模型。这并非关于模型本身，而是关于一张图表——这张图揭示了 AI 能力扩展的一个全新维度。

在左侧图表中，模型性能随着训练时算力增加而提升——这是所有 AI 从业者都熟悉的预训练扩展法则。真正激动人心的是右侧图表：模型性能同样随着测试时算力（Test-Time Compute）的增加而提升。换言之，你教会模型"思考"，它花在思考上的时间越多，表现就越好。

OpenAI 将这一发现印在了 T 恤上——这是一种足以与预训练扩展法则相提并论的全新扩展维度。测试时扩展意味着，我们不再仅仅依赖在训练阶段投入更多算力，还可以在推理阶段通过让模型"花更多时间思考"来持续提升性能。

思想实验：教爱因斯坦考广义相对论

Dan Roberts 是物理学家出身。他以一个精巧的思想实验（Thought Experiment）将 AI 的进展置于历史坐标中。

想象回到 1907 年——爱因斯坦尚未开始研究广义相对论。让他参加广义相对论的期末考试。GPT-4.5 生成了考题（经 Dan Roberts 验证为合理问题），但 GPT-4.5 无法正确作答——需要 o3 模型。o3 思考了约一分钟，最终得到了正确答案。

但爱因斯坦呢？他花了整整 8 年才完成从特殊相对论到广义相对论的飞跃，最终能够回答这道题。Dan Roberts 的观点不是今天的 AI 已经能与爱因斯坦匹敌，而是建立了一个参照系：今天的模型思考 1 分钟，能够复现教科书级别的计算和变体。但真正想要的是让模型对"人类知识的前沿"做出重大原创性贡献。

从预训练霸权到强化学习碾压

Dan Roberts 紧接着揭示了一个"逆共识"趋势。他指出，在 2024 年初发布 GPT-4o 时，几乎全部算力都用于预训练。随后 OpenAI 开始加入强化学习计算来训练 o1，又为 o3 适当增加了 RL 算力。在未来，RL 算力将大幅增长；在更远的未来，RL 算力将完全主导整个训练过程。

他引用了一张来自 Yann LeCun 在 2019 年制作的经典幻灯片——那张图将预训练描绘成一块巨大的蛋糕，而强化学习仅仅是蛋糕顶上的一个小樱桃。Dan Roberts 想做的，是彻底颠覆这个比喻：保持蛋糕大小不变，但用一个巨型 RL 樱桃砸在上面。

这一观点之所以具有争议性，是因为大多数 AI 研究者仍将预训练视为核心——"互联网数据是化石燃料，预训练是蛋糕本体"。但 OpenAI 正朝着一个 RL 占绝对主导的未来前进，而这需要前所未有的算力基础设施。

扩展的科学：从精准预测到重新发明

Dan Roberts 展示了一张来自 GPT-4 发布博文的图表：一条虚线是 OpenAI 在小规模实验中做出的性能预测，而最终 GPT-4 的实际表现精确落在这条线上。这意味着在预训练时代，OpenAI 已经掌握了根据小规模实验精准预测大规模模型性能的能力，从而将训练不确定性的风险降到了最低。

但在测试时计算和强化学习的新方向下，所有旧的预测方法都必须"扔出窗外"——需要重新发明什么是在这一新范式下"扩展算力"的涵义。这就是 扩展科学（Scaling Science）——Dan Roberts 在 OpenAI 的主要工作之一。

"我们正在扩展，我们需要扩展科学，因为我们想成为扩展科学。"

为什么模型仍是"傻瓜天才"

Dan Roberts 引用播客主 Dwarkesh Patel 的说法：当前的 AI 模型"感觉像傻瓜天才"——它们无法发现广义相对论。为什么会这样？

一种可能性是我们问了错误的问题——在科学研究中，问题的表述方式往往比求解过程本身更重要，我们需要精确地提出正确的问题。另一种可能性是模型被训练了太多竞赛数学题，导致能力"锯齿化"——在某些任务上表现卓越，在其他任务上却令人失望。

但 Dan Roberts 的核心理念是：继续扩展。当我们继续将 RL 和测试时计算的规模推大，一切将变得真正令人惊叹。

9 年到 AGI：指数思维

Dan Roberts 以一张描述 AI 任务长度指数增长的图表结束演讲。根据数据显示，AI 能够完成的连续任务时长每 7 个月翻一倍。当前模型可以完成约 1 小时的任务。按照这一趋势推算，下一年将达到约 2.5 小时。

那么回到爱因斯坦的坐标：爱因斯坦花了 8 年思考广义相对论。8 年是当前模型 1 小时任务时长的约 70,000 倍。这意味着需要大约 16 次翻倍。每次翻倍需要 7 个月——16 × 7 = 112 个月，约 9 年。

Dan Roberts 的结论简洁有力："在 9 年内，我们将拥有一个能够发现广义相对论的模型。"

他承认 AI 领域的预测总是错的，这次很可能也会错。但他仍然决定"画这条线"。因为这不仅是关于一个具体数字的预测，更是关于一个方向的宣言：AI 的能力扩展不会停滞，我们将沿着指数曲线继续前进。