LangChain 的 Harrison Chase:构建 AI Agent 的编排层 | Training Data

摘要
Harrison Chase 是 LangChain 的创始人兼 CEO,被誉为 Agent 生态系统中的传奇人物——他率先将大语言模型(LLM)与工具和行动连接起来,而 LangChain 是当今 AI 领域最流行的 Agent 构建框架。在本期对话中,Harrison 深入阐述了 Agent 的核心定义、LangChain 在 Agent 生态系统中的定位、认知架构(Cognitive Architecture)的概念,以及 Agent 从 AutoGPT 时代的狂热到当前更务实落地的发展历程。他提出 Agent 的本质在于"让 LLM 决定应用程序的控制流",并描述了从简单链式(Chain)到完全自主 Agent 之间的广泛光谱。Harrison 观察到,当前最成功的 Agent 实现并非完全自主的通用方案,而是位于光谱中间的、经过精心约束的定制化认知架构。他预言,随着模型能力的提升,通用规划能力会越来越多地被内化到模型本身,但领域特定的规划逻辑将始终需要人工编码。
正文
一、什么是 Agent?——核心定义
面对"Agent 到底是什么"这个基础问题,Harrison 给出了一个精准的定义:
Agent 就是让 LLM 决定应用程序的控制流。
他进一步解释道:在传统的 RAG(检索增强生成,Retrieval Augmented Generation)链条中,执行步骤是预先确定的——先生成搜索查询,然后检索文档,再生成答案,最后返回给用户。这是一个固定的序列。而 Agent 的区别在于,LLM 被置于中心位置,由它来决定每一步该做什么:有时它会检索文档,有时直接回复用户,有时则连续检索多次后才回答。
Harrison 将与此相关的几个"流行词"串联起来:
- 工具使用(Tool Usage):当 LLM 决定控制流时,它主要通过调用工具来实现决策——这两者天然耦合。
- 记忆(Memory):由于 LLM 需要记住之前做过什么才能做出后续判断,记忆能力是 Agent 的必然需求。
他总结道,Agent 是一个从"完全控制"到"完全自主决策"的光谱。一端是简单的路由器(router)——只在两条路径之间做分类选择;另一端是 AutoGPT 式的完全自主 Agent。
二、LangChain 的定位与演化
LangChain 的定位随着行业变化而持续演进。Harrison 回顾了这条发展路径:
早期阶段:LangChain 最初是 Chain(链式调用)与 Agent Executor(一个自主 Agent 类)的结合体。团队后来逐渐为这个类增加了更多控制能力。
当前阶段:团队意识到开发者需要远超单一 Agent Executor 类所能提供的灵活性和控制力。因此他们大力投资 LangGraph——LangChain 的扩展,专为构建处于光谱中间的、高度可定制的 Agent 而设计。
"我们观察到的现象是:完全自主的 Agent 引起了很多关注,也有很多原型出现,但它们经常'脱轨'(going off the rails)。人们实际需要的是比链式更灵活、更强大,但比完全自主更受约束的东西。而这正是 LangChain 作为编排层(orchestration layer)的核心价值所在。"
三、从 Co-pilot 到 Agent 的范式转变
Harrison 认同"行业正在从 Co-pilot 向 Agent 迈进"的判断,并给出了深刻理由:
Co-pilot 的上限:Co-pilot 始终依赖"人在回路中"(human in the loop),这实际上为系统能够完成的工作量设定了一个上限——人的参与本身就是瓶颈。
Agent 的杠杆效应:Agent 做更多事情意味着更高的杠杆,但同时带来风险——越让它自主行动,出错的概率越大。因此"找到正确的平衡点"是最核心的挑战。
他预判未来的人机交互模式将更多是"Agent 做事、偶尔向人类汇报",而非 Co-pilot 式的"持续在回路中"。
四、AutoGPT 热潮与务实转向
Harrison 将 Agent 的炒作周期划分为几个阶段:
- 2023 年春-夏季:AutoGPT 引爆热潮,成为 GitHub 历史上最受欢迎的项目之一。
- 2023 年夏末-2024 年初:进入冷却期,人们意识到完全自主方案的局限性。
- 2024 年起:更现实的 Agent 产品开始上线——如 Elastic 的生产级 Agent、Klarna 的客服机器人、Devin、Sierra 等。
AutoGPT 为何未能兑现期望? Harrison 指出核心原因:它太通用、太无约束。虽然这种"无所不能"的姿态激发了人们的想象力,但实际业务场景中,人们需要 Agent 完成的是高度具体、有明确规则和流程的任务。"我们看到的实际生产中的 Agent,更多是定制化的认知架构——有特定的做事方式,有一定的灵活性,但整体是被引导的。"
五、认知架构(Cognitive Architecture)
Harrison 引入了"认知架构"这一核心概念:
认知架构本质上就是 LLM 应用程序的系统架构——从用户输入到用户输出,数据流动和 LLM 调用的完整路径。
他打了个比方:当一个人面对一项任务时,脑海中有一个关于"如何完成这件事"的心智模型。认知架构就是将这个心智模型编码到软件系统中的方法。
在实践中,这意味着每个应用都有自己独特的"图"(graph)——可能有特定的前置检查步骤、三条可选路径、每条路径又有各自的子步骤和循环回路。这些图越来越复杂,也越来越"定制化"。
六、认知架构的未来演化
对于"这些复杂的定制架构是否只是过渡方案"的问题,Harrison 给出了一个精妙的四象限分析:
| 简单 | 复杂 | |
|---|---|---|
| 通用 | 简单循环(如 AutoGPT) | 复杂的通用规划/反思(如 Tree of Thoughts) |
| 定制 | 简单的领域特定流程 | 复杂的定制化认知架构 |
他的判断是:
- 复杂的通用架构(如 Tree of Thoughts)会随着模型能力的提升而消失——因为这些通用的规划和反思能力将被训练到模型本身中去。
- 简单的通用架构(纯循环)和定制的认知架构将是长期存在——前者因为效率,后者因为领域特定的规划逻辑永远无法被一个通用模型完全覆盖。
"你实际上是在将规划责任从 LLM 转移到人类身上。其中一部分规划会越来越多地移交给模型和提示词,但总有一些任务在规划层面非常复杂,短时间内不太可能有现成的方案能超级可靠地完成它们。"
七、Agent 可靠性的现状
Harrison 引用 Princeton SWE-bench 论文的数据:通用编码 Agent 能解决 12.5% 的 GitHub Issues,相比纯 RAG 方案的 3.8% 已有巨大进步,但距离替代哪怕一个实习生也还有很长的路。
但他同时指出,领域特定的 Agent 可靠性远超通用 Agent。例如 Vercel 的 v0 的可靠性远高于 12.5%,Elastic 已经将多个 Agent 部署到生产环境中。结论是:通用 Agent 仍然困难,但定制化的 Agent 已经开始产生真实的商业价值。
本期对话录制于 2024 年 6 月,正值 Agent 从概念验证走向生产部署的关键转折期。Harrison Chase 的思考为 Agent 开发者提供了从"构建什么"到"如何构建"的完整框架。