AGI 所需的理论突破已经完成：对话 OpenAI 前研究主管 Bob McGrew

cover Sequoia Capital · 2025-06-17🎬 在 YouTube 观看原视频 →>

摘要

OpenAI 前首席研究官 Bob McGrew 在本次深度对话中提出了一个令人振奋且颇具争议的观点：到 2035 年回首时，我们可能不会再发现任何新的基础性 AI 概念——预训练（Pre-training）、后训练（Post-training）和推理（Reasoning）这三根支柱已经构成了通向 AGI 所需的全部理论框架。Bob 以 2020 年 GPT-3 刚训练完成时的内部讨论为例，指出当时团队就能清晰预见此后的路线图：扩大预训练规模、增强多模态能力、发展推理能力（早在 2021 年 Anthropic 团队离开后即已开始）。他认为，未来将是对这些理念的深化和工程化，而非根本性的范式革新。

在智能体（Agent）时代，Bob 提出了一个挑战硅谷商业模式的洞见：价格由计算成本而非人工替代价值决定。如果 AI 律师无限可复制，其服务价格将趋近于推理成本而非律师时薪。这也意味着真正的护城河仍在于网络效应、品牌和规模经济，而非单纯的 AI 能力。Bob 同样对机器人技术表达了极大的热情——他认为 LLM 提供的语言接口和强大的视觉编码器，使机器人从"解决单一问题需要数年"跨越到"几个月内解决多种通用任务"。

正文

AI 的三位一体：预训练、后训练、推理

Bob 指出 2025 年将是"推理之年"。从 O1 预览版（2024 年 9 月）到 O3（2025 年 4 月），短短 6 个月内，推理能力实现了从"不能使用工具"到"在思维链中调用工具"的跨越。而这一进展的扩散速度同样惊人：OpenAI 花了数年打磨的推理技术，几个月内就出现在 Google、DeepSeek、Anthropic 的产品中。

但 Bob 也警示，推理领域最"低垂的果实"正在被迅速采摘。O1 到 O3 的工具使用改进是明显且可预见的方向；接下来的进步将越来越困难。推理的"超配红利"（overhang）——计算力、数据、算法效率——将逐渐耗尽。

预训练并未消亡，但角色已变

针对"预训练撞墙"的流行叙事，Bob 给出了更精细的解读。预训练面临的是"收益递减"而非"能力天花板"：模型智能度与训练计算量呈对数线性关系，这意味着每获得一个智能增量都需要指数级的计算力增长。而预训练一个模型需要占用整个数据中心数月之久——下一次预训练需要等待新的数据中心建成，这是以年为单位的周期，无法像推理那样在数月内迭代。

但预训练并未失去价值。2025 年预训练的核心价值在于改进架构——更高效的推理速度、更长的上下文窗口、更好的上下文利用。每次架构创新都需要从头开始预训练，因此预训练仍然是整个流水线中不可或缺的一环。

后训练：模型人格的"厚问题"

Bob 将后训练与预训练/推理进行了本质区分：后者关注的是"智能"——这是一个"薄问题"（thin problem），在一个领域的进步（如数学）可以泛化到其他领域（如法律推理）。但后训练 (Post-training) 关注的是"模型人格"——这是一个"厚问题"（thick problem），需要大量人类投入来定义"什么是好的个性"。

Bob 特别提到 OpenAI 的 Joanne Jang 和 Anthropic 的 Amanda Askell——她们并非传统意义上的研究科学家，而是产品经理或深刻理解人性的专家。她们的工作是精心雕琢模型的交流风格，这更像是一个长期的人际互动训练过程而非算法优化。

没有第四根支柱？Bob 的大胆预言

Bob 提出了可能是本次对话中最具冲击力的观点：如果我们站在 2030 或 2035 年回望，构成 AI 能力跃升的基础概念可能只有三个——基于 Transformer 的语言模型、预训练规模化（GPT-1/2 奠定了基础）、以及推理能力（辅以贯穿全程的多模态增强）。不会再有第四根支柱。

他的论证基于第一手经验：2020 年 GPT-3 训练完成后，OpenAI 内部团队（包括 Dario Amodei、Ilya Sutskever、Alec Radford 等人）已经清晰看见了此后的技术路线。他们知道从 GPT-3 到 GPT-4 需要扩大预训练规模，知道需要增强多模态能力直到模型能够操作计算机，并从 2021 年开始系统性地发展推理能力。有趣的是，当 Anthropic 去年发布"Computer Use"功能时，Bob 的朋友问他是否预料到——他的回答是：当年在 OpenAI 时这些方向就已明确，只是多模态能力需要多年才能成熟到足以支撑这样的产品。

智能体的经济学：计算成本定价

Bob 给出了一个颠覆性的分析：如果你开发了一款 AI 律师，你可能会参考律师的昂贵时薪来定价——但这是错误的。律师之所以昂贵，是因为受过训练的人数有限，时间稀缺。一旦 AI 模型可以替代律师，就等同于有了无限供应的律师——稀缺性消失，价格将趋近于"计算成本加上一点机会成本"。

这对创业公司意味着什么？Bob 认为，纯粹的垂直 AI 应用（只涉及你和电脑交互的个人生产力工具）利润空间将被极度压缩。真正的护城河仍将是传统的商业壁垒：网络效应、品牌、规模经济。他建议创业者寻找需要"多人协作"或"企业级集成"的领域，而不是单用户场景。

Bob 以 Palantir AIP 和他投资的 Distill 公司为例：Palantir 成功地在模型层之上构建了与整个企业流程交互的系统层；Distill 则帮助公司从内部提取上下文、输入模型、利用输出来辅助决策。这些都不是模型公司的工作——对 OpenAI 或 Anthropic 来说，每个企业的具体问题是"太小的"市场，不值得为每个客户单独训练模型。

专有数据的价值正在被侵蚀

Bob 进一步论证了"专有数据壁垒"的脆弱性。几年前，金融机构试图用自身积累的专有数据微调垂直模型以获取竞争优势——但结果这些模型全部输给了下一代通用 GPT。智能的合成能力超越了记忆旧数据的能力。

更深刻的是：专有数据本质上是"凝结的劳动"——有人花数年时间跑完所有案例分析、挨个打电话给客户收集信息。而现在，AI 可以免费完成这些劳动。你可以让 AI 再打一遍所有客户的电话、重新分析所有案例——从而在不依赖原始数据的情况下复现出相当的结果。不过，Bob 也指出了真正的例外：某些涉及具体客户、获得深度信任的专有数据（如理财顾问对客户完整投资组合的掌握）仍然有不可替代的价值——这类数据不教授新技能，而是为已有技能提供应用场景。

为什么机器人技术的时机已到？

Bob 对机器人技术格外兴奋，认为它正处于"AI 几年前"的阶段——即将从研究挑战变为商业产品。2016 年，Bob 花了大力气才教会一个机器人从视觉识别并移动棋子——这让他断定商业化遥不可及。OpenAI 的机器人项目也是以展示机器学习能力为目的，而非商业考量。

但如今一切都变了。LLM 提供了自然语言接口——你可以用语言描述任务而非手工编程每个动作。强大的视觉编码器与语言智能深度耦合——让机器人从"花数年解决一个特定问题（如玩魔方）"跨越到"花数月解决大量通用任务（如叠衣服、打包纸箱、分装鸡蛋）"。Physics Intelligence 等公司正在这一前沿快速推进。

开发者仍需要 IDE，但角色在变

在编码 AI 的议题上，Bob 展现了务实而非极端的立场。他认为编码将呈现两个并行方向：在 IDE 中与 AI 配对的"Cursor 风格"工作，以及在后台作为智能体运行的"Devin 风格"工作。这两种模式将长期共存——"一两年在 AI 的采纳周期中就是永恒"。

关于"氛围编码"（Vibe Coding），Bob 的态度冷静：PM 可以用 AI 快速生成演示原型来获取用户反馈，但这些原型最终会被丢弃，由专业软件工程师重建。因为"你不理解的代码库是负债而非资产"——这是一个经典的软件工程原则。目前让智能体来理解和维护代码库仍然不够可靠，人类仍然需要负责顶层设计和问题分解。

Bob 也勾勒了智能体最擅长的任务类型：bug 修复、重构、代码翻译（如 COBOL 转 Python）——这些"结果清晰但过程枯燥"的工作。而需要大量"品味"（taste）的任务——涉及非显而易见的性能后果、用户界面演进对底层抽象的影响——仍然是人类的主场。

培养下一代：好奇心与自主性

Bob 分享了他 8 岁儿子使用 ChatGPT 的故事，展现了一个温暖而深刻的视角。他儿子把 ChatGPT 当作"专家"而非"朋友"：他决定成为硬币收藏家后，把家里所有 1970 年前的硬币拿出来，逐一拍照询问 ChatGPT 价值、版别标记、银质年份等。在一次旅行中，硬币店的店员被这个 8 岁孩子的专业知识震惊了——"给我看你们所有的硬币……不，我要旧金山铸币厂的、这个年份的、全银的"。

Bob 认为 AI 就该如此使用——让你在你热衷的领域成为专家，并帮你省去不感兴趣的事务。他对孩子的 AI 使用原则是：先掌握基础（学编程时不让他用 AI 写代码），然后利用 AI 扩展能力。他儿子最近的一个项目是用 ChatGPT 指导搭建一个 Arduino 按钮装置——从列出所需零件（跳线、两块 Arduino 板）、生成亚马逊购物清单，到实际组装。Bob 感叹："我们小时候谁能做到这个？"

管理天才：忠诚与自我毁灭

Bob 分享了他从 Palantir CEO Alex Karp 那里学到的管理哲学：极具才华的人拥有超能力，但也有令人崩溃的弱点。在高能力层次上，失败几乎总是自我毁灭式的——他们面对的是"对他人显而易见但对自己情感上极度困难"的选择。作为管理者，如果你让下属相信你是为他们好（而不是为自己），你就能在关键时刻帮助他们跨越那道深堑，阻止他们做出愚蠢的决定。

这甚至适用于解雇：如果你已经投入足够的时间确认某人在当前岗位无法成功，告诉他真相反而是为他好——让他有机会去别处找到适合自己的位置。Bob 认为，忠诚（loyalty）是解锁所有管理能力的那把钥匙。

在 OpenAI，一个与此相关的制度创新是"技术成员"（Member of Technical Staff）的统一头衔——Greg Brockman 的创意。目的是消除工程师和研究员之间基于学历（PhD vs 非 PhD）的身份区隔。事实上，OpenAI 的许多顶尖研究者（如 Alec Radford、Aditya Ramesh）都没有博士学位——他们是在 OpenAI 内部成长起来的。

安全与智能体防御

Bob 将他对安全的关注聚焦于一个趋势：AI 使攻击（offensive work）的成本和时间大幅降低，这意味着防御也必须变得更加智能体化。他投资了一家名为 Outtake 的公司（前 Palantir 成员创建），他们构建了一个几乎不需要人类输入的网安智能体堆栈。OpenAI 自身也在使用他们的服务。Bob 认为，关键在于企业愿意改变业务流程来接纳智能体化的安全运营——这为创业公司提供了巨大的机会，正如当年从 Web 到移动端的范式转移一样。