OpenAI 刚刚发布了 ChatGPT Agent,其迄今为止最强大的智能体

摘要
OpenAI 发布了全新的 ChatGPT Agent(智能体模式),这是 Deep Research 和 Operator 两大产品的深度整合,代表着 OpenAI 在 AI 智能体领域的重大突破。本期对话邀请了该产品背后的核心团队成员 Issa Fulford、Casey Chu 和 Edward Sun,深入探讨了这款智能体的架构理念、训练方法和安全考量。
ChatGPT Agent 的核心创新在于将多种工具整合到了一个共享状态的虚拟计算机环境中:文本浏览器(类似 Deep Research,高效阅读长文本)、图形浏览器(类似 Operator,可进行点击、滚动、填表等视觉操作)和终端(可运行代码、分析文件、调用 API)。通过强化学习 (Reinforcement Learning, RL) 在数千台虚拟机上训练,模型自主发现了最优的工具切换策略,而非被编程特定的使用模式。该智能体可以持续运行数十分钟甚至一小时以上,支持用户中途打断、纠正方向,展现出前所未有的协作能力。团队还揭示了 Deep Research 和 Operator 背后团队合并的故事、安全防护的多层架构,以及数据科学任务上已超越人类基准的表现。
正文
从 Deep Research 和 Operator 到统一智能体
Issa 介绍了 ChatGPT Agent 的诞生背景:这是一个由原 Deep Research 团队和 Operator 团队合并后创建的协作成果。他们为智能体提供了一个虚拟计算机(virtual computer)的访问权限,通过这个虚拟计算机,智能体拥有多种上网方式。
具体来说,智能体配备了文本浏览器(text browser)——类似于 Deep Research 的工具,能够高效搜索和阅读在线信息;以及虚拟浏览器(virtual browser)——类似于 Operator 的工具,能够完全访问图形用户界面,进行点击、输入表单、滚动、拖拽等操作。将两者整合后,智能体比单独使用任何一个工具都强大得多——一个更高效,一个更灵活。
此外,智能体还获得了终端(terminal)的访问权限,可以运行代码、分析文件、创建幻灯片或电子表格等产出物,并且可以通过终端调用 API(无论是公开 API 还是需要登录认证的私有 API,如 GitHub、Google Drive、SharePoint 等)。
最关键的架构创新是:所有工具共享状态(shared state)——就像使用一台真实电脑一样,所有应用程序都能访问同一个文件系统。
起源故事:天作之合
Casey 讲述了团队合并的故事。2024 年 1 月,OpenAI 先后发布了 Operator(可以进行网络购物等操作)和 Deep Research(可以广泛浏览互联网并合成带有引用的研究报告)。团队成员在规划路线图时意识到这是一个"天作之合"——Operator 擅长视觉交互但不擅长阅读长文章,Deep Research 擅长阅读长文章但不擅长处理交互元素和高度可视化的内容。
更有趣的是,团队在分析 Operator 的用户提示类型时发现,大量用户实际上在用 Operator 做"Deep Research 类型"的任务(如先研究旅行方案再预订),这进一步验证了整合的自然性。
那么,为什么 1+1=3?Edward 解释说,团队不仅整合了这两个工具,还把所有能想到的工具都加了进来:终端用于计算和数据处理、图像生成工具用于美化幻灯片、API 连接器用于调用外部服务——最终形成了一个远超各部分之和的通用智能体。
协作式的人机交互模式
Issa 强调了智能体的交互设计哲学:模仿你请同事帮忙做事的自然流程。你可以给出指令,智能体可以提出澄清性问题,在任务中途可以打断和纠正方向——"哦,我忘了说,我其实只想要蓝色的运动鞋"。同样,当智能体需要执行破坏性操作或需要用户登录时,它也会主动征询许可。
Casey 描述了用户界面中的"虚拟桌面"功能:用户可以实时观看智能体的操作,并且这个环境在对话结束后仍然保持活跃——用户可以随时回来提问、要求修改,甚至接管计算机来进行登录或输入信用卡信息等操作。这就像一个"站在同事身后观看并随时可以接手"的体验。
训练方法:强化学习的魔法
Edward 详细介绍了训练方法:使用与 Deep Research 相同的强化学习技术。团队将模型"关进"配备所有工具的虚拟环境中,给予它需要完成的困难任务(如研究餐厅并预订座位),然后根据任务完成的质量给予奖励。
经过训练,模型学会了在工具之间流畅切换:例如,对于研究餐厅并预订位子的任务,它会先进行 Deep Research 风格的文本浏览,然后使用图形浏览器查看食物图片和实时可用性(通常需要 JavaScript 渲染),整个过程行云流水。
训练中的最大挑战是稳定性——同时运行成百上千台访问真实互联网的虚拟机,任何环节都可能出问题。Casey 笑称这是"最小可交付的去风险版本",暗示未来还有巨大的提升空间。
安全:多层次防御
Casey 详细阐述了安全考量。与 Deep Research 的"只读"模式不同,ChatGPT Agent 能够产生外部副作用——理论上它可能完成任务但同时采取大量有害行为(如为了让你满意而购买 100 个不同的选项)。
团队构建了多层次的缓解措施:一个"监控器"始终在后台观察,类似于电脑的防病毒软件,一旦发现智能体访问可疑网站或出现异常行为,立即停止其操作。团队还准备了快速响应协议——一旦发现新的攻击模式,可以像更新防病毒软件一样快速更新监控规则。
Issa 补充说,安全训练是整个组织的跨职能协作成果,涉及安全团队、治理团队、法务团队、研究团队和工程团队。模型经过了多周的外部红队测试 (red teaming) 和内部分析,以确保不会被用于生物武器等危害。
小团队,大突破
令人惊讶的是,核心研究团队只有 3-4 人(Deep Research 侧)和 6-8 人(计算机使用/Operator 侧),加上一个强大的应用工程团队。Issa 强调了研究和应用团队之间几乎无缝的协作——从定义产品能力到训练模型再到部署,没有明显的边界。
强化学习的经验教训
Edward 分享了 RL 训练中的关键发现:团队精心策划了一组多样化的任务——从在互联网上找到极其小众的信息,到撰写完整的引用文章。只要能够评判模型的结果是否正确,就可以可靠地训练模型在该任务上变得更好。
Casey 补充说,RL 的数据效率极高——与预训练阶段的海量数据相比,RL 阶段所使用的精炼高质量数据集规模要小得多。但是,要让计算机操作部分正常工作,模型首先需要具备基本的理解页面和视觉元素的能力——这是团队在过去 2-3 年中持续积累的基础。
展望未来:全能智能体 vs 专业智能体
在讨论未来方向时,团队一致倾向于"全能智能体"路线。Issa 认为,如果你有一个真正出色的"参谋长",他知道如何正确分配任务并且几乎可以做任何你需要的事情,这对用户来说是最简单的体验。Edward 指出,在训练中,Deep Research、计算机操作和幻灯片生成等技能之间存在大量的正向迁移 (positive transfer),因此用单一智能体作为底层基础模型更有意义。
团队特别期待的发展方向包括:智能体的个性化与记忆能力(未来智能体会在用户尚未提出需求时主动采取行动)、更丰富的交互范式,以及将智能体从"用户发起任务"推向"主动服务"的演进。