AI代理的下一步：与LangChain创始人Harrison Chase对谈

cover Sequoia Capital · 2024-03-29🎬 在 YouTube 观看原视频 →>

摘要

Harrison Chase是LangChain的联合创始人，LangChain已成为生成式AI领域领先的编排框架（Orchestration Framework），拥有庞大的开发者社区。在这次Sequoia AI Ascent活动的演讲中，Harrison围绕AI代理（AI Agent）的三个关键前沿进行了深入探讨。

首先，在规划（Planning）方面，当前的语言模型（Language Model）还不足以在循环中可靠地进行多步推理，因此开发者不得不在外部构建提示策略（Prompting Strategies）和"认知架构"（Cognitive Architectures）来显式地规划步骤或进行反思。Harrison提出了一个开放性问题：这些规划提示技术究竟是短期"黑科技"还是长期必需组件？他特别提到了AlphaCodium论文中提出的"流程工程"（Flow Engineering）概念——通过人类工程师预先设计状态机式的执行图来替代模型自身的规划能力。

其次，在用户体验（UX）方面，Harrison指出现有Agent应用的交互方式尚未成熟。人在回路（Human-in-the-Loop）仍然必要，但过多的人工干预又削弱了自动化的价值。他对Devin引入的"回退与编辑"（Rewind and Edit）功能表示赞赏——用户可以回到Agent执行过程中的某个时间点，修改其状态或决策，从而赋予Agent更强的可操控性和可靠性。

最后，在记忆（Memory）方面，Harrison区分了两种关键记忆：过程性记忆（Procedural Memory）——记住完成任务的最佳方式，和个性化记忆（Personalized Memory）——记住关于用户的事实以提供更个性化的体验。他通过一个推文风格学习的示例展示了Agent如何通过自然语言反馈不断优化自身行为，并展示了日记应用如何记录用户偏好（如喜欢意大利菜）。

Harrison的核心观点是：Agent的未来不仅取决于模型能力的提升，更取决于这三个层面的工程突破。

正文

一、AI代理的核心概念

Harrison开场即点明主题：LangChain是一个用于构建各类大语言模型（Large Language Model, LLM）应用的开发者框架，而其中最常被构建的应用类型就是AI代理（AI Agent）。

AI代理的核心定义是：使用语言模型以多种形式与外部世界交互。这包括工具使用（Tool Usage）、记忆（Memory）、规划（Planning）和采取行动（Taking Actions）。最简单的形式可以理解为将LLM放在一个for循环中运行——反复向LLM询问下一步该做什么，执行其指令，然后再次询问，直到LLM判断任务完成为止。

然而，Harrison指出了一个关键问题：目前语言模型还不够好，无法在循环中可靠地进行这种推理。这引出了他今天的三个核心主题。

二、规划：短期黑科技还是长期必需？

规划是Agent面临的首要挑战。当Agent需要执行多个步骤时，在for循环中隐式地要求模型每次推理出最佳下一步，然后观察结果，再推理下一个最佳步骤——这个过程目前并不可靠。

因此，开发者社区涌现了大量外部论文和提示策略来强制执行规划。这些策略主要分为两类：

前置规划：在执行前显式地列出所有步骤
后置反思：执行完成后检查是否所有步骤都正确完成

Harrison提出了一个前瞻性问题：这些提示策略和"认知架构"究竟会继续由开发者构建，还是会内化到模型API中？他特别提到Sam（Altman）也曾在活动中讨论过类似问题。虽然Harrison没有给出确定答案，但这个问题本身就揭示了Agent领域的核心张力。

他还引入了"流程工程"（Flow Engineering）这一来自AlphaCodium论文的概念。该论文通过更好的流程工程（而非更好的模型或提示策略）实现了当时最先进的编码性能。其核心思想是：将"该做什么"的规划责任从模型转移给人类工程师，由工程师在设计阶段就构建好执行图或状态机（State Machine）。Harrison认为这是当前阶段的一种"拐杖"——虽然是有效的工程手段，但也反映了模型自主规划能力的局限。

三、用户体验：寻找人机交互的最佳平衡点

Harrison认为Agent应用的用户体验是尚未被攻克的领域，也是他特别兴奋的方向。

核心矛盾在于：Agent还不够可靠，所以需要人在回路（Human-in-the-Loop）来监督和干预；但如果用户在回路中参与过多，Agent又失去了实际减轻工作量的意义。这需要在可靠性与自动化程度之间找到微妙的平衡。

Harrison特别赞赏Devin（两周前发布的AI编程助手）中Jordan B在Twitter上指出的"回退与编辑"（Rewind and Edit）功能。这一机制允许用户回到Agent执行过程中的任意时间点，编辑Agent的行为或状态，然后让Agent基于修正后的信息继续执行。Harrison认为这是一种非常强大的UX范式，LangChain团队正在积极探索这一方向。这种设计同时解决了两个问题：

可靠性：用户可以纠正Agent的错误路径
可操控性：用户能够引导Agent朝着期望的方向前进

四、记忆：过程性记忆与个性化记忆

在记忆层面，Harrison提到了Mike在Zapier演示中展示的概念：用户通过与机器人的自然语言交互来"教"它如何做事，并通过纠正来优化其行为。

Harrison演示了一个具体案例：在聊天界面中，他通过自然语言教AI以特定风格撰写推文。他不断纠正AI的输出，直到达到满意的风格，然后点击"赞同"。下次回到这个应用时，AI记住了他想要的风格；再次编辑和优化后，第三次使用时它记住了所有改进。Harrison将这种记忆归类为过程性记忆（Procedural Memory）——记住完成某事的正确方式。

另一个同样重要的维度是个性化记忆（Personalized Memory）——记住关于用户的个性化事实。这些事实不一定是用来"做得更正确"，而是用来"让体验更加个性化"。Harrison展示了一个他们正在开发的日记应用：用户提到参加了一节烹饪课，系统便记住了用户喜欢意大利菜。

Harrison强调，无论是过程性记忆还是个性化记忆，将这些个性化层面引入Agent将是下一代AI代理至关重要的能力。

五、结语

Harrison的演讲虽然简短，但精准地勾勒了AI代理从实验走向生产环境所必须解决的三个关键挑战。他没有给出所有的答案，但提出了正确的问题——这些问题正是LangChain庞大的开发者社区每天都在探索的方向。Agent的未来不仅取决于底层模型的进步，更取决于这些工程层面的系统化突破。