OpenAI 如何打造其突破性的 Deep Research 产品 — 对话 Isa Fulford

摘要
Isa Fulford 是 OpenAI Deep Research 研究团队的负责人。在本演讲中,她深度揭示了 Deep Research 这一突破性产品的诞生过程——从内部原型到产品落地,从模型微调到工具链构建。Deep Research 是一个基于 o3 模型微调的智能体能力(Agentic Capability),能够在 5 到 30 分钟内进行多步骤的在线研究,浏览大量网页来源并进行推理和数据分析,最终生成带有完整引用来源的综合性报告,水平相当于一名研究分析师。Isa Fulford 分享了关键的产品哲学:在产品开发前先通过"拼凑式原型"(Hacked Demo)激发内部热情,然后才启动真正的模型训练;在用户交互上,让模型在上手前主动提问以获取更精准的需求描述;在技术路径上,通过强化学习直接训练浏览和数据分析能力。她还展示了从风险投资趋势分析到韩国夜市推荐等多元化应用场景,并展望了私有数据集成和"从信息综合到实际行动"的下一步演进方向。
正文
产品起源:从强化学习的意外泛化开始
Isa Fulford 回溯了 Deep Research 的起源。大约一年多前,OpenAI 内部在强化学习(Reinforcement Learning)和推理模型方面取得了显著进展,当时主要在数学、科学和编程任务上进行训练。团队观察到一个有趣的现象:在这些领域训练出的推理能力出现了向其他领域的泛化。
这引发了一个关键问题:如果我们直接在用户日常任务上进行训练,会产生什么样的效果?
团队选择在线浏览(Online Browsing)作为第一个试验场,原因有二:第一,大量用户在工作中使用浏览器进行信息检索,跨领域的应用范围极广;第二,浏览是一个很好的"沙盒"起点——只读型智能体在安全方面的考量相对可控,是探索智能体产品化的理想第一步。
从"拼凑原型"到"真正训练"的产品策略
Isa Fulford 分享了一个重要的产品研发方法论:先激发热情,再投入工程。
她和 Yash Patil、Thomas Simpson 最初仅仅通过"提示模型"(Prompting Models)的方式做了一个拼凑式原型——没有训练任何新模型,只是将现有模型的能力组合在一起,展示 Deep Research 产品可能的形态。这个原型的目标不是上线,而是"让人们兴奋起来"。
一旦获得了内部支持,团队才开始真正的模型训练过程。这包括两个核心工作:
- 创建强化学习任务:专门设计用于教会模型浏览能力和数据分析能力的 RL 训练任务。
- 构建工具链:为模型提供浏览器工具(可搜索、点击、滚动网页)和 Python 执行环境(用于数据分析和图表绘制)。
产品设计哲学:在行动之前先"追问"
Deep Research 的用户体验设计中有一个精妙之处:在开始一项可能耗时数十分钟的研究之前,模型会主动向用户提出澄清性问题。
Isa Fulford 解释道,设计这一交互模式的逻辑是:如果模型即将为你花费相当长时间来完成任务,你必须确保最终的输出恰好是你想要的。因此,产品希望在前端引导用户提供尽可能多的细节和精确度。
这一设计哲学折射出一个更深刻的洞察:在 AI 智能体产品中,"输入质量"直接决定了"输出质量"。让用户在首轮就充分表达需求,比让模型在模糊指令上浪费计算资源要明智得多。
技术架构:微调 o3 的双重能力
Deep Research 的核心由一个专为浏览和数据分析微调的 o3 模型版本驱动。在运行过程中,用户可以看到:
- 交织式的思维链(Chain of Thought):模型逐步展示它对所遇到的来源材料进行推理的过程。
- 工具调用记录:模型何时进行了搜索、何时使用 Python 执行了数据分析,全部可见。
Isa Fulford 还透露了一个关键信息:o3 之所以在搜索方面表现出色,正是因为它在训练过程中使用了 Deep Research 团队开发的相同工具和浏览数据集。 这体现了 OpenAI 内部不同产品线之间的能力复用——Deep Research 的研发不仅孵化了一个独立产品,还反向提升了主力推理模型的搜索能力。
场景演示:从 VC 研究到韩国夜市
Isa Fulford 现场演示了多个实际案例。
VC 投资分析:她让 ChatGPT 撰写了一个提示词,要求分析 AI 公司的风险投资趋势,包括按细分领域和阶段分类的融资数据,并生成有意义的可视化图表。Deep Research 在数分钟内完成了跨多个来源的研究,生成了带有图表的综合报告——其中一张图表因统计了 OpenAI 自身的大额融资而出现了"异常峰值"。
韩国夜市推荐:她在韩国旅行时使用手机完成了这个查询——要求寻找距离当前位置 15 分钟路程以内的夜市,同时查阅 Reddit 和韩语来源(她本人无法阅读韩语),并在每个夜市中找出评分最高的店铺。这种层层约束条件的复合搜索在常规搜索引擎中极其困难,但 Deep Research 能够为每个候选项深入研究,核对约束条件是否满足,然后综合呈现。
生物医学研究:查询某种血友病基因疗法在美国获得监管批准的具体信息,模型能够搜遍多个来源,返回带有准确引用和解释的完整列表。
Isa Fulford 坦承产品仍有不完美之处——有时会出现幻觉——团队正在持续提升可靠性。
未来路线图:从信息综合到行动执行
Isa Fulford 描绘了 Deep Research 的三个演进方向:
- 整合到主力推理模型中:已经在进行——o3 的优秀搜索能力即源于此。团队将持续将 Deep Research 的成果"逆流"注入更大规模的推理模型。
- 引入私有上下文:将企业的内部知识库和付费数据源纳入 Deep Research 的搜索范围,使其能够处理企业专有信息。
- 从信息综合到行动执行:这是最大的下一步——让模型不仅综合现有信息,而是真正采取行动。从"告诉我答案"到"帮我做完这件事"。