超越主观感觉:PM 的 AI 评估(Evals)完全指南
摘要
每个构建 AI 产品的 PM 都在痴迷于优化提示词(Prompt)和使用最新的大语言模型(LLM),却几乎没人掌握那个隐藏的关键杠杆——评估(Evals)。本文作者 Aman Khan 是 Arize AI 产品总监、曾与 Andrew Ng 合作开发评估课程,曾任职于 Spotify、Cruise、Apple。他指出:评估是唯一能让你拆解 AI 系统的每个步骤、精准衡量每次改动对产品影响的工具。文章从实际案例出发(行程规划 AI Agent 将旧金山订成圣地亚哥),系统地介绍了三类评估方法(人工评估、代码评估、LLM 评估)、四要素评估公式、四阶段评估工作流(收集 → 初评 → 迭代 → 生产监控),以及新手起步的四个具体步骤。Aman 断言:写好评估的能力正在成为 2025 年及以后 AI PM 的核心定义性技能。
正文
第一章:为什么评估如此重要
一个真实场景
假设你正在为旅游预订网站构建一个行程规划 AI Agent(AI 代理)。用户输入自然语言请求,如"我想在旧金山附近找个轻松的周末度假地,预算 1000 美元以内",Agent 会搜索最佳航班、酒店和当地体验。
构建时一切正常——直到上线后,愤怒的客户涌入客服:Agent 给他们订了去圣地亚哥的航班,而不是旧金山。
评估是什么
评估(Evals)是衡量 AI 系统质量和效果的方法。它像回归测试或基准指标,明确定义了对你的 AI 产品来说"好"到底意味着什么——超越简单的延迟检测或通过/失败检查。
评估 AI 系统不像传统软件测试,而更像给人做驾驶考试:
- 环境感知:能否正确解读信号并对变化做出反应?
- 决策能力:能否在不可预测情况下做出正确选择?
- 安全性:能否始终遵循指令并安全到达目的地?
正如你不会让没通过驾考的人上路,你也不应该让未通过深思熟虑的评估的 AI 产品上线。
第二章:三类评估方法
1. 人工评估(Human Evals)
在产品中设计人类反馈闭环——例如在 LLM 响应旁添加点赞/点踩或评论框。也可以聘请人工标注员(主题专家)提供标签和反馈,用于对齐人类偏好(如通过 RLHF,即基于人类反馈的强化学习)。
- 优点:直接与终端用户关联。
- 缺点:反馈稀疏(多数人不点击点赞/踩),信号不够强,成本高。
2. 代码评估(Code-based Evals)
利用 API 调用或代码生成的检查——例如生成的代码是否"有效"且能运行。
- 优点:便宜、快速编写,从简单字符串检查到复杂逻辑检查均可。
- 缺点:不适用于主观或开放式任务。
3. LLM 评估(LLM-based Evals)
使用外部 LLM 作为"裁判法官",通过 Prompt 对 Agent 系统的输出进行评分。可以用自然语言描述评判标准,PM 可以直接编写。
- 优点:高度可扩展(像人类标注但便宜得多),可用自然语言编写,能让 LLM 解释其判断理由。虽然单个判断可能主观,但在大数据集上具有实证价值。
- 缺点:需要先用标注示例验证裁判 LLM 的表现,结果是概率性而非确定性。
第三章:评估四要素公式
每一条优秀的 LLM 评估包含四个部分:
- 设定角色:为裁判 LLM 设定角色(如"你正在审阅书面文本")。
- 提供上下文:从应用中传入实际数据(如对话链或 Agent 生成的回复)。
- 明确目标:清晰定义成功与失败的样貌,将微妙的用户期望转化为精确的评判标准。
- 定义术语和标签:例如"毒性"在不同语境下含义不同,需精确定义以让裁判 LLM 正确理解。
示例:行程规划 Agent 的友善度评估
- 角色:"你是一个裁判,评估书面文本。"
- 上下文:"以下是文本:{text}"(变量 {text} 填充 Agent 回复)。
- 目标:"判断 LLM Agent 的回复是否友善。"
- 术语:"'友善'定义为回复中使用感叹号且整体有帮助性,回复绝不应有负面语气。"
第四章:四阶段评估工作流
阶段一:收集(Collection)
- 收集真实用户交互:捕获真实使用场景,通过直接反馈、分析或手动检查。
- 记录边缘案例:识别异常或意外交互。
- 构建代表性数据集:使用 10-100 个人标注示例作为评估的事实标准(Ground Truth)。从电子表格开始,后续考虑开源工具如 Phoenix(开源)管理数据。
阶段二:初评(First-pass Evaluation)
- 按四要素公式编写初始评估 Prompt。
- 对数据集运行评估,目标是与人工标注事实标准达到至少 90% 准确率。
- 识别失败模式——评估在哪些地方与人工标签不一致?迭代 Prompt。
阶段三:迭代循环(Iteration Loop)
- 优化评估 Prompt:持续调整直到性能达标。可通过添加少量"好"/"坏"示例做 Few-shot Prompting(少样本提示)。
- 扩展数据集:定期添加新示例和边缘案例。
- 迭代 Agent Prompt:当你修改底层 AI 系统(如从 GPT-4o 切换到 Claude 3.7 Sonnet),重跑数据集并通过评估 Agent 比较新旧输出得分。
阶段四:生产监控(Production Monitoring)
- 持续评估:对所有实时交互自动运行评估,获取随时间变化的得分趋势。
- 对比评估结果与实际用户反馈:寻找差异并改进评估框架。
- 构建可操作的评估仪表盘:将评估指标与业务结果关联,作为系统改动的先行指标(Leading Metric)。
第五章:新手起步四步法
- 选一个关键功能:从一个明确组件开始(如聊天机器人的幻觉检测),而非复杂内部逻辑。
- 写一条简单评估:检查 LLM 输出是否正确引用提供的内容,或是否编造(幻觉)信息。
- 在 5-10 个代表性示例上运行。
- 审查结果并迭代,持续优化评估 Prompt 直到准确率提升。
第六章:常见错误与避坑指南
- 评估过于复杂、过快:产生"噪声"信号,导致团队丧失信任。先从特定输出开始。
- 不测试边缘案例:在 Prompt 中提供一两个"好"/"坏"的 Few-shot 示例来锚定裁判 LLM。
- 忘记验证评估结果是否与实际用户反馈对齐:你不是在测代码,而是在验证 AI 能否真正解决用户问题。
结语
随着 AI 产品日趋复杂,写好评估的能力将越来越关键。评估不只是为了抓 Bug——它们是确保 AI 系统持续交付价值、持续取悦用户的关键步骤。评估是从原型走向生成式 AI 生产级部署的关键一跳。
注:本文作者 Aman Khan 是 Arize AI 产品总监,与 Andrew Ng 合作开发了 Evaluating AI Agents 课程。开源评估工具推荐 Phoenix 和 Ragas。