LangChain 的 Harrison Chase:构建 AI Agent 的编排层 | Training Data

cover>

摘要

Harrison Chase 是 LangChain 的创始人兼 CEO,被誉为 Agent 生态系统中的传奇人物——他率先将大语言模型(LLM)与工具和行动连接起来,而 LangChain 是当今 AI 领域最流行的 Agent 构建框架。在本期对话中,Harrison 深入阐述了 Agent 的核心定义、LangChain 在 Agent 生态系统中的定位、认知架构(Cognitive Architecture)的概念,以及 Agent 从 AutoGPT 时代的狂热到当前更务实落地的发展历程。他提出 Agent 的本质在于"让 LLM 决定应用程序的控制流",并描述了从简单链式(Chain)到完全自主 Agent 之间的广泛光谱。Harrison 观察到,当前最成功的 Agent 实现并非完全自主的通用方案,而是位于光谱中间的、经过精心约束的定制化认知架构。他预言,随着模型能力的提升,通用规划能力会越来越多地被内化到模型本身,但领域特定的规划逻辑将始终需要人工编码。

正文

一、什么是 Agent?——核心定义

面对"Agent 到底是什么"这个基础问题,Harrison 给出了一个精准的定义:

Agent 就是让 LLM 决定应用程序的控制流。

他进一步解释道:在传统的 RAG(检索增强生成,Retrieval Augmented Generation)链条中,执行步骤是预先确定的——先生成搜索查询,然后检索文档,再生成答案,最后返回给用户。这是一个固定的序列。而 Agent 的区别在于,LLM 被置于中心位置,由它来决定每一步该做什么:有时它会检索文档,有时直接回复用户,有时则连续检索多次后才回答。

Harrison 将与此相关的几个"流行词"串联起来:

他总结道,Agent 是一个从"完全控制"到"完全自主决策"的光谱。一端是简单的路由器(router)——只在两条路径之间做分类选择;另一端是 AutoGPT 式的完全自主 Agent。

二、LangChain 的定位与演化

LangChain 的定位随着行业变化而持续演进。Harrison 回顾了这条发展路径:

早期阶段:LangChain 最初是 Chain(链式调用)与 Agent Executor(一个自主 Agent 类)的结合体。团队后来逐渐为这个类增加了更多控制能力。

当前阶段:团队意识到开发者需要远超单一 Agent Executor 类所能提供的灵活性和控制力。因此他们大力投资 LangGraph——LangChain 的扩展,专为构建处于光谱中间的、高度可定制的 Agent 而设计。

"我们观察到的现象是:完全自主的 Agent 引起了很多关注,也有很多原型出现,但它们经常'脱轨'(going off the rails)。人们实际需要的是比链式更灵活、更强大,但比完全自主更受约束的东西。而这正是 LangChain 作为编排层(orchestration layer)的核心价值所在。"

三、从 Co-pilot 到 Agent 的范式转变

Harrison 认同"行业正在从 Co-pilot 向 Agent 迈进"的判断,并给出了深刻理由:

Co-pilot 的上限:Co-pilot 始终依赖"人在回路中"(human in the loop),这实际上为系统能够完成的工作量设定了一个上限——人的参与本身就是瓶颈。

Agent 的杠杆效应:Agent 做更多事情意味着更高的杠杆,但同时带来风险——越让它自主行动,出错的概率越大。因此"找到正确的平衡点"是最核心的挑战。

他预判未来的人机交互模式将更多是"Agent 做事、偶尔向人类汇报",而非 Co-pilot 式的"持续在回路中"。

四、AutoGPT 热潮与务实转向

Harrison 将 Agent 的炒作周期划分为几个阶段:

AutoGPT 为何未能兑现期望? Harrison 指出核心原因:它太通用、太无约束。虽然这种"无所不能"的姿态激发了人们的想象力,但实际业务场景中,人们需要 Agent 完成的是高度具体、有明确规则和流程的任务。"我们看到的实际生产中的 Agent,更多是定制化的认知架构——有特定的做事方式,有一定的灵活性,但整体是被引导的。"

五、认知架构(Cognitive Architecture)

Harrison 引入了"认知架构"这一核心概念:

认知架构本质上就是 LLM 应用程序的系统架构——从用户输入到用户输出,数据流动和 LLM 调用的完整路径。

他打了个比方:当一个人面对一项任务时,脑海中有一个关于"如何完成这件事"的心智模型。认知架构就是将这个心智模型编码到软件系统中的方法。

在实践中,这意味着每个应用都有自己独特的"图"(graph)——可能有特定的前置检查步骤、三条可选路径、每条路径又有各自的子步骤和循环回路。这些图越来越复杂,也越来越"定制化"。

六、认知架构的未来演化

对于"这些复杂的定制架构是否只是过渡方案"的问题,Harrison 给出了一个精妙的四象限分析:

简单 复杂
通用 简单循环(如 AutoGPT) 复杂的通用规划/反思(如 Tree of Thoughts)
定制 简单的领域特定流程 复杂的定制化认知架构

他的判断是:

"你实际上是在将规划责任从 LLM 转移到人类身上。其中一部分规划会越来越多地移交给模型和提示词,但总有一些任务在规划层面非常复杂,短时间内不太可能有现成的方案能超级可靠地完成它们。"

七、Agent 可靠性的现状

Harrison 引用 Princeton SWE-bench 论文的数据:通用编码 Agent 能解决 12.5% 的 GitHub Issues,相比纯 RAG 方案的 3.8% 已有巨大进步,但距离替代哪怕一个实习生也还有很长的路。

但他同时指出,领域特定的 Agent 可靠性远超通用 Agent。例如 Vercel 的 v0 的可靠性远高于 12.5%,Elastic 已经将多个 Agent 部署到生产环境中。结论是:通用 Agent 仍然困难,但定制化的 Agent 已经开始产生真实的商业价值。


本期对话录制于 2024 年 6 月,正值 Agent 从概念验证走向生产部署的关键转折期。Harrison Chase 的思考为 Agent 开发者提供了从"构建什么"到"如何构建"的完整框架。