OpenAI Deep Research 团队:为什么强化学习是 AI 智能体的未来

摘要
本期节目邀请了 OpenAI Deep Research 产品的两位负责人——Issa Fulford 和 Josh Tobin。Deep Research 发布仅三周就迅速成为热门产品,被众多科技领袖用于从行业分析到医学研究再到生日派对策划的各种场景。
Deep Research 是一个能够搜索大量在线网站并生成详尽报告的 AI 代理(Agent)。它可以在 5 到 30 分钟内完成人类需要数小时才能完成的研究工作。它是 OpenAI 继 Operator 之后发布的第二个代理产品,其背后是一个经过端到端强化学习训练的、基于 o3 推理模型微调的专用模型。
这场对话揭示了 Deep Research 背后的技术突破:与传统的手工构建代理工作流不同,Deep Research 的模型直接通过端到端训练学会了浏览、搜索、分析和综合信息的能力。它可以在实时看到网页内容后动态调整搜索策略,做出创造性的决策,这是任何预先编写的工作流脚本都无法实现的灵活性。
Issa 和 Josh 分享了他们对 AI 代理未来的深刻见解。Josh 提出了一个核心洞见:"机器学习的第一课就是——你优化什么就得到什么。如果你能直接为你想要的结果优化整个系统,效果会远比把没有端到端优化的模型拼凑在一起好得多。"这正是强化学习在构建下一代 AI 代理中的关键作用。他们预测 2025 年将是"智能体之年",而强化学习将经历一次重大复兴。
正文
Deep Research 是什么?
Deep Research 是一个 AI 代理,能够搜索大量在线网站并生成包含具体引用的综合性报告。它与普通 ChatGPT 的关键区别在于深度和广度:它能进行 5 到 30 分钟的深度研究,找到普通人难以发现的模糊信息,并以带有引用来源的结构化报告形式呈现结果。Issa 解释说:"它可以完成人类需要很多小时才能完成的任务,能够以比常规 ChatGPT 更多的细节和更具体的来源来回答你的问题。"
产品的起源可以追溯到一年前。当时 OpenAI 内部在推理模型(reasoning models)方面取得了很大成功——训练模型在回答之前先"思考"。虽然最初的工作集中在数学和科学领域,但团队意识到这种新型推理模型还解锁了另一个关键能力:处理需要长时间跨度的任务,涉及代理般的行为。考虑到很多人需要进行大量在线研究和信息辨别的工作,团队决定尝试用同样的方法来训练模型处理浏览任务。
令人惊讶的是,Deep Research 意想不到的爆款用例是编程。Issa 坦承这是他们最初没有考虑到的使用场景,但大量用户在 Twitter 和反馈渠道中分享了用 Deep Research 进行代码搜索、查找最新文档和编写脚本的经历。她说:"我有点不好意思我们没有想到这个用例,因为对于 ChatGPT 用户来说这太明显了。"
端到端强化学习:与手工构建代理的根本区别
这是整场对话中最具技术深度也最重要的部分。Josh 分享了他在创业公司构建代理的经历:当时他采用的主流做法是构建一个操作图(graph of operations),其中部分节点是语言模型调用,语言模型可以在节点处做出决策,但整体的步骤序列是由人类预先定义的。
"我们发现……这种方法可以快速做出原型,但在真实世界中很快就会崩溃,"Josh 解释道,"因为你很难预测模型可能面对的所有场景,也很难想到所有可能的分支路径。而且模型在这些决策节点上通常不是最优的决策者——因为它们没有被训练来做这些决策,它们只是被训练来做看起来类似的事情。"
Deep Research 的革命性在于它完全跳过了这个手工构建的框架。它是一个经过端到端强化学习训练的 o3 微调版本,直接学会了如何在浏览时进行多步推理:模型收到请求后进行深入思考,搜索信息,阅读并理解这些信息如何与请求相关,然后决定下一步应该搜索什么——所有这些决策都是由模型驱动而非预设规则。
Issa 补充道:"在实时网页信息面前,模型必须根据看到的内容改变策略。我们确实看到它做出非常有创造性的搜索。你可以阅读它的思维链摘要,有时它对下一步查找方向的选择非常聪明。"
数据质量与训练策略
Josh 强调,Deep Research 成功的关键之一是对数据质量的极致追求——这是机器学习领域反复被验证的教训。团队投入大量精力构建高质量的浏览任务数据集,并且有一位专门负责数据优化的"秘密武器"——Edward,他让任何数据集都能得到优化。
在输出可信度方面,团队采取了多项措施。模型在训练过程中就被要求生成正确的引用,用户可以在报告中看到信息的具体来源。虽然模型仍可能犯错或信任不可靠的来源,但这仍然是团队持续改进的活跃领域。
设计决策:澄清流程的巧思
一个看似简单但非常有效的设计选择是"澄清流程"。在使用 Deep Research 时,模型会在开始研究之前向用户提问以澄清需求。这与常规 ChatGPT 的行为不同——ChatGPT 通常是在回复末尾才提出问题。
Issa 解释了这个设计的逻辑:"用户如果要等 5 到 30 分钟,你希望他们的回复是尽可能详尽和令人满意的。但用户在第一轮提示中就提供所有信息的习惯并不自然。"因此团队增加了这个额外的步骤,确保模型在开始漫长的研究之前充分理解用户的需求。
有趣的是,用户已经开始自发地创造更复杂的工作流:一些人先用 o1 或 o1 Pro 来优化他们的提示词,待提示词完善后再发送给 Deep Research,这种多模型协作的模式正在自然涌现。
2025:智能体之年
Josh 提出了一个核心信念:端到端强化学习的"配方"几乎没有任何限制因素。这个配方是:取一个最先进的推理模型,赋予它与人类相同的工具(浏览器、Python 等),然后直接为你想要的结果进行优化训练。"没有什么能阻止这个配方扩展到越来越复杂的任务,"他说,"AGI 现在是一个操作层面(operational)的问题了。"
Sam Altman 曾说过 Deep Research 将承担全球所有经济价值任务中"一个低个位数百分比"的工作量。Josh 对此的解读是:Deep Research 不是要取代你的全部工作,但它可以在某些环节为你节省数小时甚至数天的时间。更重要的是,它让你能够做那些原本因为没有时间而被放弃的事情——比如调研每一个潜在的投资标的,或者为孩子的生日派对做充分准备。
Josh 特别强调他不认为任何工作类别"面临风险":"我完全不把这看作是劳动力替代。对于知识工作者来说,它是一种超能力。"
强化学习归来
Josh 回顾了强化学习(强化学习,Reinforcement Learning,RL)的兴衰。他用杨立昆(Yann LeCun)的"蛋糕比喻"来解释:如果把 AI 比作一个蛋糕,无监督学习是蛋糕主体,监督学习是糖霜,强化学习是顶上的樱桃。在 2015-2016 年,大家都在做强化学习,但那是在蛋糕还没有做好的时候就想加樱桃。
"现在,我们有了在大规模数据上预训练的语言模型(蛋糕),知道如何通过监督微调让它们擅长遵循指令(糖霜),所以现在正是用强化学习来为任何可以定义奖励函数的用例进行优化的绝佳时机(樱桃)。"2025 年,强化学习将在语言模型的基础上迎来真正的复兴。
闪电问答
- 最喜欢的用例:个性化教育——学习任何想学的东西。
- 2025 年将爆发的应用类别:智能体(Agents)。
- 推荐的学习资源:Pieter Abbeel(Josh 的博士生导师)关于强化学习基础的讲座,虽然是几年前的内容,但仍然是很好的入门材料。
- 关于竞争:目前市场上已有三个都叫"Deep Research"的产品,Josh 建议用户全都试试看,质量差异会很明显。核心差异在于模型的构建方式、数据集的质量以及 o 系列模型的推理引擎。