9 年到 AGI:OpenAI 的 Dan Roberts 谈从思维模型到模拟爱因斯坦

摘要
Dan Roberts 在本次演讲中提出了一个大胆的论断:按照当前 AI 任务时长的指数增长趋势——每 7 个月翻一倍——我们距离一个能够"发现广义相对论"的 AI 模型大约还需要 9 年时间。他以一个精巧的思想实验为锚点:假设让 1907 年的爱因斯坦(尚在研究广义相对论之前)回答广义相对论的期末考试题——这花了人类历史上最伟大的物理学家 8 年时间。今天,OpenAI 的 o3 模型思考约 1 分钟后已能正确回答类似的物理问题。但真正的目标不是复现教科书级的计算,而是让 AI 对科学知识体系做出重大原创贡献。Dan Roberts 揭示了一个被主流叙事忽视的趋势:强化学习(Reinforcement Learning, RL)正在从 AI 训练的"蛋糕顶上的小樱桃"变为碾压整个蛋糕的巨型樱桃——预训练与强化学习的算力分配将被彻底颠覆。当模型思考的时间从 1 分钟扩展到数小时、数天、数月,AI 将完成从"复现者"到"发现者"的蜕变。
正文
思维模型的出现:一条全新的扩展曲线
Dan Roberts 开场提到了 OpenAI 在 2024 年 9 月发布的 o1 模型。这并非关于模型本身,而是关于一张图表——这张图揭示了 AI 能力扩展的一个全新维度。
在左侧图表中,模型性能随着训练时算力增加而提升——这是所有 AI 从业者都熟悉的预训练扩展法则。真正激动人心的是右侧图表:模型性能同样随着测试时算力(Test-Time Compute)的增加而提升。换言之,你教会模型"思考",它花在思考上的时间越多,表现就越好。
OpenAI 将这一发现印在了 T 恤上——这是一种足以与预训练扩展法则相提并论的全新扩展维度。测试时扩展意味着,我们不再仅仅依赖在训练阶段投入更多算力,还可以在推理阶段通过让模型"花更多时间思考"来持续提升性能。
思想实验:教爱因斯坦考广义相对论
Dan Roberts 是物理学家出身。他以一个精巧的思想实验(Thought Experiment)将 AI 的进展置于历史坐标中。
想象回到 1907 年——爱因斯坦尚未开始研究广义相对论。让他参加广义相对论的期末考试。GPT-4.5 生成了考题(经 Dan Roberts 验证为合理问题),但 GPT-4.5 无法正确作答——需要 o3 模型。o3 思考了约一分钟,最终得到了正确答案。
但爱因斯坦呢?他花了整整 8 年才完成从特殊相对论到广义相对论的飞跃,最终能够回答这道题。Dan Roberts 的观点不是今天的 AI 已经能与爱因斯坦匹敌,而是建立了一个参照系:今天的模型思考 1 分钟,能够复现教科书级别的计算和变体。但真正想要的是让模型对"人类知识的前沿"做出重大原创性贡献。
从预训练霸权到强化学习碾压
Dan Roberts 紧接着揭示了一个"逆共识"趋势。他指出,在 2024 年初发布 GPT-4o 时,几乎全部算力都用于预训练。随后 OpenAI 开始加入强化学习计算来训练 o1,又为 o3 适当增加了 RL 算力。在未来,RL 算力将大幅增长;在更远的未来,RL 算力将完全主导整个训练过程。
他引用了一张来自 Yann LeCun 在 2019 年制作的经典幻灯片——那张图将预训练描绘成一块巨大的蛋糕,而强化学习仅仅是蛋糕顶上的一个小樱桃。Dan Roberts 想做的,是彻底颠覆这个比喻:保持蛋糕大小不变,但用一个巨型 RL 樱桃砸在上面。
这一观点之所以具有争议性,是因为大多数 AI 研究者仍将预训练视为核心——"互联网数据是化石燃料,预训练是蛋糕本体"。但 OpenAI 正朝着一个 RL 占绝对主导的未来前进,而这需要前所未有的算力基础设施。
扩展的科学:从精准预测到重新发明
Dan Roberts 展示了一张来自 GPT-4 发布博文的图表:一条虚线是 OpenAI 在小规模实验中做出的性能预测,而最终 GPT-4 的实际表现精确落在这条线上。这意味着在预训练时代,OpenAI 已经掌握了根据小规模实验精准预测大规模模型性能的能力,从而将训练不确定性的风险降到了最低。
但在测试时计算和强化学习的新方向下,所有旧的预测方法都必须"扔出窗外"——需要重新发明什么是在这一新范式下"扩展算力"的涵义。这就是 扩展科学(Scaling Science)——Dan Roberts 在 OpenAI 的主要工作之一。
"我们正在扩展,我们需要扩展科学,因为我们想成为扩展科学。"
为什么模型仍是"傻瓜天才"
Dan Roberts 引用播客主 Dwarkesh Patel 的说法:当前的 AI 模型"感觉像傻瓜天才"——它们无法发现广义相对论。为什么会这样?
一种可能性是我们问了错误的问题——在科学研究中,问题的表述方式往往比求解过程本身更重要,我们需要精确地提出正确的问题。另一种可能性是模型被训练了太多竞赛数学题,导致能力"锯齿化"——在某些任务上表现卓越,在其他任务上却令人失望。
但 Dan Roberts 的核心理念是:继续扩展。当我们继续将 RL 和测试时计算的规模推大,一切将变得真正令人惊叹。
9 年到 AGI:指数思维
Dan Roberts 以一张描述 AI 任务长度指数增长的图表结束演讲。根据数据显示,AI 能够完成的连续任务时长每 7 个月翻一倍。当前模型可以完成约 1 小时的任务。按照这一趋势推算,下一年将达到约 2.5 小时。
那么回到爱因斯坦的坐标:爱因斯坦花了 8 年思考广义相对论。8 年是当前模型 1 小时任务时长的约 70,000 倍。这意味着需要大约 16 次翻倍。每次翻倍需要 7 个月——16 × 7 = 112 个月,约 9 年。
Dan Roberts 的结论简洁有力:"在 9 年内,我们将拥有一个能够发现广义相对论的模型。"
他承认 AI 领域的预测总是错的,这次很可能也会错。但他仍然决定"画这条线"。因为这不仅是关于一个具体数字的预测,更是关于一个方向的宣言:AI 的能力扩展不会停滞,我们将沿着指数曲线继续前进。