OpenAI 如何打造其突破性的 Deep Research 产品 — 对话 Isa Fulford

cover Sequoia Capital · 2025-05-08🎬 在 YouTube 观看原视频 →>

摘要

Isa Fulford 是 OpenAI Deep Research 研究团队的负责人。在本演讲中，她深度揭示了 Deep Research 这一突破性产品的诞生过程——从内部原型到产品落地，从模型微调到工具链构建。Deep Research 是一个基于 o3 模型微调的智能体能力（Agentic Capability），能够在 5 到 30 分钟内进行多步骤的在线研究，浏览大量网页来源并进行推理和数据分析，最终生成带有完整引用来源的综合性报告，水平相当于一名研究分析师。Isa Fulford 分享了关键的产品哲学：在产品开发前先通过"拼凑式原型"（Hacked Demo）激发内部热情，然后才启动真正的模型训练；在用户交互上，让模型在上手前主动提问以获取更精准的需求描述；在技术路径上，通过强化学习直接训练浏览和数据分析能力。她还展示了从风险投资趋势分析到韩国夜市推荐等多元化应用场景，并展望了私有数据集成和"从信息综合到实际行动"的下一步演进方向。

正文

产品起源：从强化学习的意外泛化开始

Isa Fulford 回溯了 Deep Research 的起源。大约一年多前，OpenAI 内部在强化学习（Reinforcement Learning）和推理模型方面取得了显著进展，当时主要在数学、科学和编程任务上进行训练。团队观察到一个有趣的现象：在这些领域训练出的推理能力出现了向其他领域的泛化。

这引发了一个关键问题：如果我们直接在用户日常任务上进行训练，会产生什么样的效果？

团队选择在线浏览（Online Browsing）作为第一个试验场，原因有二：第一，大量用户在工作中使用浏览器进行信息检索，跨领域的应用范围极广；第二，浏览是一个很好的"沙盒"起点——只读型智能体在安全方面的考量相对可控，是探索智能体产品化的理想第一步。

从"拼凑原型"到"真正训练"的产品策略

Isa Fulford 分享了一个重要的产品研发方法论：先激发热情，再投入工程。

她和 Yash Patil、Thomas Simpson 最初仅仅通过"提示模型"（Prompting Models）的方式做了一个拼凑式原型——没有训练任何新模型，只是将现有模型的能力组合在一起，展示 Deep Research 产品可能的形态。这个原型的目标不是上线，而是"让人们兴奋起来"。

一旦获得了内部支持，团队才开始真正的模型训练过程。这包括两个核心工作：

创建强化学习任务：专门设计用于教会模型浏览能力和数据分析能力的 RL 训练任务。
构建工具链：为模型提供浏览器工具（可搜索、点击、滚动网页）和 Python 执行环境（用于数据分析和图表绘制）。

产品设计哲学：在行动之前先"追问"

Deep Research 的用户体验设计中有一个精妙之处：在开始一项可能耗时数十分钟的研究之前，模型会主动向用户提出澄清性问题。

Isa Fulford 解释道，设计这一交互模式的逻辑是：如果模型即将为你花费相当长时间来完成任务，你必须确保最终的输出恰好是你想要的。因此，产品希望在前端引导用户提供尽可能多的细节和精确度。

这一设计哲学折射出一个更深刻的洞察：在 AI 智能体产品中，"输入质量"直接决定了"输出质量"。让用户在首轮就充分表达需求，比让模型在模糊指令上浪费计算资源要明智得多。

技术架构：微调 o3 的双重能力

Deep Research 的核心由一个专为浏览和数据分析微调的 o3 模型版本驱动。在运行过程中，用户可以看到：

交织式的思维链（Chain of Thought）：模型逐步展示它对所遇到的来源材料进行推理的过程。
工具调用记录：模型何时进行了搜索、何时使用 Python 执行了数据分析，全部可见。

Isa Fulford 还透露了一个关键信息：o3 之所以在搜索方面表现出色，正是因为它在训练过程中使用了 Deep Research 团队开发的相同工具和浏览数据集。 这体现了 OpenAI 内部不同产品线之间的能力复用——Deep Research 的研发不仅孵化了一个独立产品，还反向提升了主力推理模型的搜索能力。

场景演示：从 VC 研究到韩国夜市

Isa Fulford 现场演示了多个实际案例。

VC 投资分析：她让 ChatGPT 撰写了一个提示词，要求分析 AI 公司的风险投资趋势，包括按细分领域和阶段分类的融资数据，并生成有意义的可视化图表。Deep Research 在数分钟内完成了跨多个来源的研究，生成了带有图表的综合报告——其中一张图表因统计了 OpenAI 自身的大额融资而出现了"异常峰值"。

韩国夜市推荐：她在韩国旅行时使用手机完成了这个查询——要求寻找距离当前位置 15 分钟路程以内的夜市，同时查阅 Reddit 和韩语来源（她本人无法阅读韩语），并在每个夜市中找出评分最高的店铺。这种层层约束条件的复合搜索在常规搜索引擎中极其困难，但 Deep Research 能够为每个候选项深入研究，核对约束条件是否满足，然后综合呈现。

生物医学研究：查询某种血友病基因疗法在美国获得监管批准的具体信息，模型能够搜遍多个来源，返回带有准确引用和解释的完整列表。

Isa Fulford 坦承产品仍有不完美之处——有时会出现幻觉——团队正在持续提升可靠性。

未来路线图：从信息综合到行动执行

Isa Fulford 描绘了 Deep Research 的三个演进方向：

整合到主力推理模型中：已经在进行——o3 的优秀搜索能力即源于此。团队将持续将 Deep Research 的成果"逆流"注入更大规模的推理模型。
引入私有上下文：将企业的内部知识库和付费数据源纳入 Deep Research 的搜索范围，使其能够处理企业专有信息。
从信息综合到行动执行：这是最大的下一步——让模型不仅综合现有信息，而是真正采取行动。从"告诉我答案"到"帮我做完这件事"。