AI智能体工作流的未来——对话AI Fund创始人Andrew Ng

摘要
在Sequoia AI Ascent 2024大会上,AI Fund创始人、斯坦福大学教授、Google Brain联合创始人Andrew Ng带来了一场聚焦智能体工作流(Agentic Workflow)的精准技术演讲。他以一组令人震惊的数据开场:在HumanEval编程基准测试中,GPT-3.5的零样本(Zero-shot)准确率仅48%,GPT-4为67.7%——但将GPT-3.5包装在智能体工作流(Agentic Workflow)中后,其表现甚至超越了GPT-4的零样本性能。这组数据揭示了一个逆向于行业直觉的结论:你不需要等待下一代的超级模型才能在性能上实现跃迁——迭代式的智能体设计模式可以在现有模型基础上产生显著的性能倍增效应。
Ng系统性地分类了四类智能体设计模式并标注了其成熟度:反思(Reflection)——已成熟可靠,将其加入几乎任何工作流都能获得性能提升;工具使用(Tool Use)——已被广泛采用,使LLM的能力边界扩展至代码执行、网络搜索等操作;规划(Planning)——令人惊艳但不够稳定,AI Agent在失败时的自主重路由能力有时令人难以置信,但无法始终可靠;多智能体协作(Multi-Agent Collaboration)——如ChatDev等开源项目展示了多角色提示(CEO、产品经理、设计师、测试工程师)下的协同编程能力,效果时而惊艳时而失败。
他同时指出了一个被长期忽视的关键成本:智能体工作流需要快速生成海量Token以实现多次迭代。这催生了一个反直觉的可能性——一个生成Token极快但质量稍低的模型,有时可能优于一个生成Token缓慢但质量更高的模型,因为前者可以完成更多的迭代循环。Ng以温和的确定性断言:智能体推理设计模式将是2024年AI能力边界大幅扩展的关键驱动力——而从非智能体到智能体工作流的迁移,需要开发者学会"将任务交给AI智能体,然后耐心等待几分钟甚至几小时"的新工作习惯。
正文
一、非智能体工作流的认知缺陷
Ng以一个精准的类比拉开演讲的序幕。今天大多数人与LLM的交互方式是这样的:输入一个提示,等待输出——"这就像让一个人写一篇论文,我说请你坐到键盘前,一口气从头打到尾,绝不使用退格键。"没有人——几乎没有人类——是这样写作的。然而当前的LLM使用范式恰好如此。这种非智能体工作流(Non-Agentic Workflow)本质上是一次性的、零迭代的推理过程。
相比之下,智能体工作流引入了一个层层递进的动态循环:
1. 生成大纲
2. 判断是否需要网络调研,如果需要就去做
3. 撰写初稿
4. 自主审阅初稿,识别需要修改的部分
5. 修订草稿
6. 循环往复
这种迭代式的工作流需要LLM在其中承担多重角色——写作者、编辑者、研究者——并在循环中持续优化输出。Ng强调,"大多数人没有意识到的是,这种方式能产生显著更好的结果。我本人在实际使用这些智能体工作流时,对它们的效果感到惊讶。"
二、数据驱动的证明:GPT-3.5 + Agent > GPT-4
Ng用HumanEval基准测试提供了最有力的实证支撑。HumanEval是OpenAI发布的编程能力测试——给定一个简单问题(如"返回列表中所有偶数位置元素之和"),要求生成正确的代码。
零样本性能:
- GPT-3.5:48%准确率
- GPT-4:67.7%准确率
智能体工作流下的性能:
- GPT-3.5 + Agentic Workflow:超越GPT-4零样本
这一结果具有深远含义。它意味着:
- 智能体包装(Agentic Wrapper)可以被视为一种"能力倍增器"——它对较小模型的提升幅度,甚至可以将其性能推至超越更大模型零样本表现的水平
- 如果你一直在等待GPT-5或Claude 4以实现应用性能的下一步跃迁,你可能已经在当前模型上通过智能体工作流实现了接近的增益
- 这彻底改变了应用的构建策略——从"等待更好的模型"转向"优化现有模型的迭代设计"
三、四大设计模式全景
Ng将当前智能体领域的"混乱而充满活力的空间"归纳为四个清晰的设计模式,并标注了各自的成熟度:
模式一:反思(Reflection)——已成熟 ★★★★★
反思是四类模式中最为可靠、最应被普遍采用的。其核心机制极其简单:
- 让LLM生成代码(或任何输出)
- 将同一输出返回给LLM,并提示:"请仔细检查代码的正确性、效率与结构"
- 同一LLM可能自行发现"第5行有一个Bug",并给出修复建议
- 将反馈重新输入LLM,生成第二版——通常优于第一版
这并非保证,但成功率足够高,值得在大多数应用中尝试。 反思的自然演进是多智能体反思:将一个LLM提示为"编码者",另一个提示为"代码审查者"——两者可以是同一基础模型但以不同角色提示——这几乎是免费的架构改进。
模式二:工具使用(Tool Use)——广泛采用 ★★★★
这是四类模式中最为人熟知的一类。LLM被赋予调用外部工具的能力——网络搜索、代码执行、图像处理等。Ng指出了一个有趣的学术史实:大量早期工具使用的研究源自计算机视觉(Computer Vision)领域,因为在多模态LLM出现之前,LLM对图像"视而不见",唯一的交互方式就是生成能操作图像的函数调用。随着GPT-4V和LLaVA等多模态能力的发展,工具使用的场景正在进一步扩展。
模式三:规划(Planning)——充满惊喜但不够稳定 ★★★☆☆
规划能力是让Ng经历"Agent Moment"——那种"哇,我不敢相信我的AI系统居然自主完成了这个"的时刻——的来源。他描述了一个引人入胜的场景:运行实时演示时,某个环节失败了,但AI Agent自行绕过了失败路径——"我实际上经历过不少这样的时刻,你简直不敢相信AI系统居然自主做到了。"
改编自HuggingGPT论文的一个案例:给AI Agent一个复杂指令——"生成一张女孩读书的图,姿势与示例图中男孩相同,并为新图像配上语音解说"——今天的Agent能够自主分解:
1. 确定男孩姿势 → 找到HuggingFace上的姿势提取模型
2. 合成女孩图片 → 找到姿势合成模型
3. 图像转文字
4. 文字转语音
"我不想说它们可靠地工作——它们有点挑剔,并不总是成功——但当它们成功时,确实相当神奇。"Ng已经开始将研究Agent纳入个人工作流程:"我不再自己去Google了——我把任务派给研究Agent,几分钟后回来看看它发现了什么。"
模式四:多智能体协作(Multi-Agent Collaboration)——超预期但不可靠 ★★☆☆☆
多智能体系统是一个令Ng"效果远超出你的预期"的模式。他以ChatDev——一个完全开源、可在笔记本电脑上运行的多Agent编程系统——为例:你将LLM以不同角色提示——"你现在是软件公司的CEO"、"你是产品经理"、"你是设计师"、"你是测试工程师"——这群由LLM扮演的角色展开一场扩展对话,协作开发一个贪吃蛇游戏。它们写代码、测试、迭代,有时产出"惊人复杂的程序"。
多智能体辩论(Multi-Agent Debate)是另一强效变体——让ChatGPT与Gemini相互辩论,实际可产出更好的最终结果。"多个模拟的AI Agent协同工作这一设计模式本身就被证明是强大的。"
四、快速Token生成:迭代密度决定输出质量
Ng提出了一个在业界讨论中较少被谈及但影响深远的技术观点:在智能体工作流中,Token生成速度本身就是一种智能。
智能体工作流的核心是迭代——LLM生成Token后,再由LLM读取这些Token、反思、再生成。因此,能够以远超人类阅读速度生成Token的能力,是智能体工作流的天然加速器。这催生了Ng最为反直觉的推论:
一个生成Token极快但质量稍低的模型,有时可能优于一个生成Token缓慢但质量更高的模型。 因为它允许你在相同时间内完成更多迭代循环。
这恰恰呼应了Ng在开篇用数据展示的核心发现——GPT-3.5 + Agent架构超越GPT-4零样本——其本质正是因为Agent循环以"量变"弥补了单次推理质量的"质差"。
五、速度的代价:学会等待
智能体工作流带来的最大心理挑战,或许不是一个技术问题,而是一个行为模式问题。"当我们向LLM发出提示时,我们想要即时响应——这是人性。" Ng以十年前在Google推动"大盒子搜索"失败的经历为例——当时他尝试推动需要更长处理时间的深度搜索,但人们习惯了半秒即回的即时反馈,无法接受等待。
面对智能体工作流,他预见了一个类似的学习曲线:"我们需要学会将任务派遣给AI Agent,然后耐心等待几分钟甚至几小时来获取响应。"
他拿新手经理做类比——把任务委派给下属后,五分钟后就去检查进度,这并不高效。与AI Agent协作同样适用这一原则。
六、通往AGI的旅途而非终点
Ng以一句意味深长的话收尾:"通往AGI的道路更像是一段旅程,而非一个目的地。而这种智能体工作流,或许能帮助我们在这段漫长的旅途中再迈一小步。"
这一收束将整个演讲的基调从技术乐观主义的兴奋中拉回一种更为诚恳的立场:智能体设计模式不是魔法,它们是工程——有时工作,有时不工作;它们不适合所有场景;它们需要耐心和调试。但在正确的应用场景下,它们代表了当前AI应用中最大的未充分释放的性能增益——一个无需等待下一代超级模型就能即刻挖掘的能力空间。
他也向基础模型公司致意:"我真的很期待Claude 5、Claude 4、GPT-5和Gemini 2.0——所有这些你们正在构建的美妙模型。"而潜台词同样清晰——在等待下一代模型的间隙,智能体工作流已经为你打开了一扇大幅提升性能的侧门。