LangChain 的 Harrison Chase：构建 AI Agent 的编排层 | Training Data

cover Sequoia Capital · 2024-06-18🎬 在 YouTube 观看原视频 →>

摘要

Harrison Chase 是 LangChain 的创始人兼 CEO，被誉为 Agent 生态系统中的传奇人物——他率先将大语言模型（LLM）与工具和行动连接起来，而 LangChain 是当今 AI 领域最流行的 Agent 构建框架。在本期对话中，Harrison 深入阐述了 Agent 的核心定义、LangChain 在 Agent 生态系统中的定位、认知架构（Cognitive Architecture）的概念，以及 Agent 从 AutoGPT 时代的狂热到当前更务实落地的发展历程。他提出 Agent 的本质在于"让 LLM 决定应用程序的控制流"，并描述了从简单链式（Chain）到完全自主 Agent 之间的广泛光谱。Harrison 观察到，当前最成功的 Agent 实现并非完全自主的通用方案，而是位于光谱中间的、经过精心约束的定制化认知架构。他预言，随着模型能力的提升，通用规划能力会越来越多地被内化到模型本身，但领域特定的规划逻辑将始终需要人工编码。

正文

一、什么是 Agent？——核心定义

面对"Agent 到底是什么"这个基础问题，Harrison 给出了一个精准的定义：

Agent 就是让 LLM 决定应用程序的控制流。

他进一步解释道：在传统的 RAG（检索增强生成，Retrieval Augmented Generation）链条中，执行步骤是预先确定的——先生成搜索查询，然后检索文档，再生成答案，最后返回给用户。这是一个固定的序列。而 Agent 的区别在于，LLM 被置于中心位置，由它来决定每一步该做什么：有时它会检索文档，有时直接回复用户，有时则连续检索多次后才回答。

Harrison 将与此相关的几个"流行词"串联起来：

工具使用（Tool Usage）：当 LLM 决定控制流时，它主要通过调用工具来实现决策——这两者天然耦合。
记忆（Memory）：由于 LLM 需要记住之前做过什么才能做出后续判断，记忆能力是 Agent 的必然需求。

他总结道，Agent 是一个从"完全控制"到"完全自主决策"的光谱。一端是简单的路由器（router）——只在两条路径之间做分类选择；另一端是 AutoGPT 式的完全自主 Agent。

二、LangChain 的定位与演化

LangChain 的定位随着行业变化而持续演进。Harrison 回顾了这条发展路径：

早期阶段：LangChain 最初是 Chain（链式调用）与 Agent Executor（一个自主 Agent 类）的结合体。团队后来逐渐为这个类增加了更多控制能力。

当前阶段：团队意识到开发者需要远超单一 Agent Executor 类所能提供的灵活性和控制力。因此他们大力投资 LangGraph——LangChain 的扩展，专为构建处于光谱中间的、高度可定制的 Agent 而设计。

"我们观察到的现象是：完全自主的 Agent 引起了很多关注，也有很多原型出现，但它们经常'脱轨'（going off the rails）。人们实际需要的是比链式更灵活、更强大，但比完全自主更受约束的东西。而这正是 LangChain 作为编排层（orchestration layer）的核心价值所在。"

三、从 Co-pilot 到 Agent 的范式转变

Harrison 认同"行业正在从 Co-pilot 向 Agent 迈进"的判断，并给出了深刻理由：

Co-pilot 的上限：Co-pilot 始终依赖"人在回路中"（human in the loop），这实际上为系统能够完成的工作量设定了一个上限——人的参与本身就是瓶颈。

Agent 的杠杆效应：Agent 做更多事情意味着更高的杠杆，但同时带来风险——越让它自主行动，出错的概率越大。因此"找到正确的平衡点"是最核心的挑战。

他预判未来的人机交互模式将更多是"Agent 做事、偶尔向人类汇报"，而非 Co-pilot 式的"持续在回路中"。

四、AutoGPT 热潮与务实转向

Harrison 将 Agent 的炒作周期划分为几个阶段：

2023 年春-夏季：AutoGPT 引爆热潮，成为 GitHub 历史上最受欢迎的项目之一。
2023 年夏末-2024 年初：进入冷却期，人们意识到完全自主方案的局限性。
2024 年起：更现实的 Agent 产品开始上线——如 Elastic 的生产级 Agent、Klarna 的客服机器人、Devin、Sierra 等。

AutoGPT 为何未能兑现期望？ Harrison 指出核心原因：它太通用、太无约束。虽然这种"无所不能"的姿态激发了人们的想象力，但实际业务场景中，人们需要 Agent 完成的是高度具体、有明确规则和流程的任务。"我们看到的实际生产中的 Agent，更多是定制化的认知架构——有特定的做事方式，有一定的灵活性，但整体是被引导的。"

五、认知架构（Cognitive Architecture）

Harrison 引入了"认知架构"这一核心概念：

认知架构本质上就是 LLM 应用程序的系统架构——从用户输入到用户输出，数据流动和 LLM 调用的完整路径。

他打了个比方：当一个人面对一项任务时，脑海中有一个关于"如何完成这件事"的心智模型。认知架构就是将这个心智模型编码到软件系统中的方法。

在实践中，这意味着每个应用都有自己独特的"图"（graph）——可能有特定的前置检查步骤、三条可选路径、每条路径又有各自的子步骤和循环回路。这些图越来越复杂，也越来越"定制化"。

六、认知架构的未来演化

对于"这些复杂的定制架构是否只是过渡方案"的问题，Harrison 给出了一个精妙的四象限分析：

	简单	复杂
通用	简单循环（如 AutoGPT）	复杂的通用规划/反思（如 Tree of Thoughts）
定制	简单的领域特定流程	复杂的定制化认知架构

他的判断是：

复杂的通用架构（如 Tree of Thoughts）会随着模型能力的提升而消失——因为这些通用的规划和反思能力将被训练到模型本身中去。
简单的通用架构（纯循环）和定制的认知架构将是长期存在——前者因为效率，后者因为领域特定的规划逻辑永远无法被一个通用模型完全覆盖。

"你实际上是在将规划责任从 LLM 转移到人类身上。其中一部分规划会越来越多地移交给模型和提示词，但总有一些任务在规划层面非常复杂，短时间内不太可能有现成的方案能超级可靠地完成它们。"

七、Agent 可靠性的现状

Harrison 引用 Princeton SWE-bench 论文的数据：通用编码 Agent 能解决 12.5% 的 GitHub Issues，相比纯 RAG 方案的 3.8% 已有巨大进步，但距离替代哪怕一个实习生也还有很长的路。

但他同时指出，领域特定的 Agent 可靠性远超通用 Agent。例如 Vercel 的 v0 的可靠性远高于 12.5%，Elastic 已经将多个 Agent 部署到生产环境中。结论是：通用 Agent 仍然困难，但定制化的 Agent 已经开始产生真实的商业价值。

本期对话录制于 2024 年 6 月，正值 Agent 从概念验证走向生产部署的关键转折期。Harrison Chase 的思考为 Agent 开发者提供了从"构建什么"到"如何构建"的完整框架。