AGI 所需的理论突破已经完成:对话 OpenAI 前研究主管 Bob McGrew

摘要
OpenAI 前首席研究官 Bob McGrew 在本次深度对话中提出了一个令人振奋且颇具争议的观点:到 2035 年回首时,我们可能不会再发现任何新的基础性 AI 概念——预训练(Pre-training)、后训练(Post-training)和推理(Reasoning)这三根支柱已经构成了通向 AGI 所需的全部理论框架。Bob 以 2020 年 GPT-3 刚训练完成时的内部讨论为例,指出当时团队就能清晰预见此后的路线图:扩大预训练规模、增强多模态能力、发展推理能力(早在 2021 年 Anthropic 团队离开后即已开始)。他认为,未来将是对这些理念的深化和工程化,而非根本性的范式革新。
在智能体(Agent)时代,Bob 提出了一个挑战硅谷商业模式的洞见:价格由计算成本而非人工替代价值决定。如果 AI 律师无限可复制,其服务价格将趋近于推理成本而非律师时薪。这也意味着真正的护城河仍在于网络效应、品牌和规模经济,而非单纯的 AI 能力。Bob 同样对机器人技术表达了极大的热情——他认为 LLM 提供的语言接口和强大的视觉编码器,使机器人从"解决单一问题需要数年"跨越到"几个月内解决多种通用任务"。
正文
AI 的三位一体:预训练、后训练、推理
Bob 指出 2025 年将是"推理之年"。从 O1 预览版(2024 年 9 月)到 O3(2025 年 4 月),短短 6 个月内,推理能力实现了从"不能使用工具"到"在思维链中调用工具"的跨越。而这一进展的扩散速度同样惊人:OpenAI 花了数年打磨的推理技术,几个月内就出现在 Google、DeepSeek、Anthropic 的产品中。
但 Bob 也警示,推理领域最"低垂的果实"正在被迅速采摘。O1 到 O3 的工具使用改进是明显且可预见的方向;接下来的进步将越来越困难。推理的"超配红利"(overhang)——计算力、数据、算法效率——将逐渐耗尽。
预训练并未消亡,但角色已变
针对"预训练撞墙"的流行叙事,Bob 给出了更精细的解读。预训练面临的是"收益递减"而非"能力天花板":模型智能度与训练计算量呈对数线性关系,这意味着每获得一个智能增量都需要指数级的计算力增长。而预训练一个模型需要占用整个数据中心数月之久——下一次预训练需要等待新的数据中心建成,这是以年为单位的周期,无法像推理那样在数月内迭代。
但预训练并未失去价值。2025 年预训练的核心价值在于改进架构——更高效的推理速度、更长的上下文窗口、更好的上下文利用。每次架构创新都需要从头开始预训练,因此预训练仍然是整个流水线中不可或缺的一环。
后训练:模型人格的"厚问题"
Bob 将后训练与预训练/推理进行了本质区分:后者关注的是"智能"——这是一个"薄问题"(thin problem),在一个领域的进步(如数学)可以泛化到其他领域(如法律推理)。但后训练 (Post-training) 关注的是"模型人格"——这是一个"厚问题"(thick problem),需要大量人类投入来定义"什么是好的个性"。
Bob 特别提到 OpenAI 的 Joanne Jang 和 Anthropic 的 Amanda Askell——她们并非传统意义上的研究科学家,而是产品经理或深刻理解人性的专家。她们的工作是精心雕琢模型的交流风格,这更像是一个长期的人际互动训练过程而非算法优化。
没有第四根支柱?Bob 的大胆预言
Bob 提出了可能是本次对话中最具冲击力的观点:如果我们站在 2030 或 2035 年回望,构成 AI 能力跃升的基础概念可能只有三个——基于 Transformer 的语言模型、预训练规模化(GPT-1/2 奠定了基础)、以及推理能力(辅以贯穿全程的多模态增强)。不会再有第四根支柱。
他的论证基于第一手经验:2020 年 GPT-3 训练完成后,OpenAI 内部团队(包括 Dario Amodei、Ilya Sutskever、Alec Radford 等人)已经清晰看见了此后的技术路线。他们知道从 GPT-3 到 GPT-4 需要扩大预训练规模,知道需要增强多模态能力直到模型能够操作计算机,并从 2021 年开始系统性地发展推理能力。有趣的是,当 Anthropic 去年发布"Computer Use"功能时,Bob 的朋友问他是否预料到——他的回答是:当年在 OpenAI 时这些方向就已明确,只是多模态能力需要多年才能成熟到足以支撑这样的产品。
智能体的经济学:计算成本定价
Bob 给出了一个颠覆性的分析:如果你开发了一款 AI 律师,你可能会参考律师的昂贵时薪来定价——但这是错误的。律师之所以昂贵,是因为受过训练的人数有限,时间稀缺。一旦 AI 模型可以替代律师,就等同于有了无限供应的律师——稀缺性消失,价格将趋近于"计算成本加上一点机会成本"。
这对创业公司意味着什么?Bob 认为,纯粹的垂直 AI 应用(只涉及你和电脑交互的个人生产力工具)利润空间将被极度压缩。真正的护城河仍将是传统的商业壁垒:网络效应、品牌、规模经济。他建议创业者寻找需要"多人协作"或"企业级集成"的领域,而不是单用户场景。
Bob 以 Palantir AIP 和他投资的 Distill 公司为例:Palantir 成功地在模型层之上构建了与整个企业流程交互的系统层;Distill 则帮助公司从内部提取上下文、输入模型、利用输出来辅助决策。这些都不是模型公司的工作——对 OpenAI 或 Anthropic 来说,每个企业的具体问题是"太小的"市场,不值得为每个客户单独训练模型。
专有数据的价值正在被侵蚀
Bob 进一步论证了"专有数据壁垒"的脆弱性。几年前,金融机构试图用自身积累的专有数据微调垂直模型以获取竞争优势——但结果这些模型全部输给了下一代通用 GPT。智能的合成能力超越了记忆旧数据的能力。
更深刻的是:专有数据本质上是"凝结的劳动"——有人花数年时间跑完所有案例分析、挨个打电话给客户收集信息。而现在,AI 可以免费完成这些劳动。你可以让 AI 再打一遍所有客户的电话、重新分析所有案例——从而在不依赖原始数据的情况下复现出相当的结果。不过,Bob 也指出了真正的例外:某些涉及具体客户、获得深度信任的专有数据(如理财顾问对客户完整投资组合的掌握)仍然有不可替代的价值——这类数据不教授新技能,而是为已有技能提供应用场景。
为什么机器人技术的时机已到?
Bob 对机器人技术格外兴奋,认为它正处于"AI 几年前"的阶段——即将从研究挑战变为商业产品。2016 年,Bob 花了大力气才教会一个机器人从视觉识别并移动棋子——这让他断定商业化遥不可及。OpenAI 的机器人项目也是以展示机器学习能力为目的,而非商业考量。
但如今一切都变了。LLM 提供了自然语言接口——你可以用语言描述任务而非手工编程每个动作。强大的视觉编码器与语言智能深度耦合——让机器人从"花数年解决一个特定问题(如玩魔方)"跨越到"花数月解决大量通用任务(如叠衣服、打包纸箱、分装鸡蛋)"。Physics Intelligence 等公司正在这一前沿快速推进。
开发者仍需要 IDE,但角色在变
在编码 AI 的议题上,Bob 展现了务实而非极端的立场。他认为编码将呈现两个并行方向:在 IDE 中与 AI 配对的"Cursor 风格"工作,以及在后台作为智能体运行的"Devin 风格"工作。这两种模式将长期共存——"一两年在 AI 的采纳周期中就是永恒"。
关于"氛围编码"(Vibe Coding),Bob 的态度冷静:PM 可以用 AI 快速生成演示原型来获取用户反馈,但这些原型最终会被丢弃,由专业软件工程师重建。因为"你不理解的代码库是负债而非资产"——这是一个经典的软件工程原则。目前让智能体来理解和维护代码库仍然不够可靠,人类仍然需要负责顶层设计和问题分解。
Bob 也勾勒了智能体最擅长的任务类型:bug 修复、重构、代码翻译(如 COBOL 转 Python)——这些"结果清晰但过程枯燥"的工作。而需要大量"品味"(taste)的任务——涉及非显而易见的性能后果、用户界面演进对底层抽象的影响——仍然是人类的主场。
培养下一代:好奇心与自主性
Bob 分享了他 8 岁儿子使用 ChatGPT 的故事,展现了一个温暖而深刻的视角。他儿子把 ChatGPT 当作"专家"而非"朋友":他决定成为硬币收藏家后,把家里所有 1970 年前的硬币拿出来,逐一拍照询问 ChatGPT 价值、版别标记、银质年份等。在一次旅行中,硬币店的店员被这个 8 岁孩子的专业知识震惊了——"给我看你们所有的硬币……不,我要旧金山铸币厂的、这个年份的、全银的"。
Bob 认为 AI 就该如此使用——让你在你热衷的领域成为专家,并帮你省去不感兴趣的事务。他对孩子的 AI 使用原则是:先掌握基础(学编程时不让他用 AI 写代码),然后利用 AI 扩展能力。他儿子最近的一个项目是用 ChatGPT 指导搭建一个 Arduino 按钮装置——从列出所需零件(跳线、两块 Arduino 板)、生成亚马逊购物清单,到实际组装。Bob 感叹:"我们小时候谁能做到这个?"
管理天才:忠诚与自我毁灭
Bob 分享了他从 Palantir CEO Alex Karp 那里学到的管理哲学:极具才华的人拥有超能力,但也有令人崩溃的弱点。在高能力层次上,失败几乎总是自我毁灭式的——他们面对的是"对他人显而易见但对自己情感上极度困难"的选择。作为管理者,如果你让下属相信你是为他们好(而不是为自己),你就能在关键时刻帮助他们跨越那道深堑,阻止他们做出愚蠢的决定。
这甚至适用于解雇:如果你已经投入足够的时间确认某人在当前岗位无法成功,告诉他真相反而是为他好——让他有机会去别处找到适合自己的位置。Bob 认为,忠诚(loyalty)是解锁所有管理能力的那把钥匙。
在 OpenAI,一个与此相关的制度创新是"技术成员"(Member of Technical Staff)的统一头衔——Greg Brockman 的创意。目的是消除工程师和研究员之间基于学历(PhD vs 非 PhD)的身份区隔。事实上,OpenAI 的许多顶尖研究者(如 Alec Radford、Aditya Ramesh)都没有博士学位——他们是在 OpenAI 内部成长起来的。
安全与智能体防御
Bob 将他对安全的关注聚焦于一个趋势:AI 使攻击(offensive work)的成本和时间大幅降低,这意味着防御也必须变得更加智能体化。他投资了一家名为 Outtake 的公司(前 Palantir 成员创建),他们构建了一个几乎不需要人类输入的网安智能体堆栈。OpenAI 自身也在使用他们的服务。Bob 认为,关键在于企业愿意改变业务流程来接纳智能体化的安全运营——这为创业公司提供了巨大的机会,正如当年从 Web 到移动端的范式转移一样。