超越主观感觉：PM 的 AI 评估（Evals）完全指南

Lenny's Newsletter · 2025-04-08

摘要

每个构建 AI 产品的 PM 都在痴迷于优化提示词（Prompt）和使用最新的大语言模型（LLM），却几乎没人掌握那个隐藏的关键杠杆——评估（Evals）。本文作者 Aman Khan 是 Arize AI 产品总监、曾与 Andrew Ng 合作开发评估课程，曾任职于 Spotify、Cruise、Apple。他指出：评估是唯一能让你拆解 AI 系统的每个步骤、精准衡量每次改动对产品影响的工具。文章从实际案例出发（行程规划 AI Agent 将旧金山订成圣地亚哥），系统地介绍了三类评估方法（人工评估、代码评估、LLM 评估）、四要素评估公式、四阶段评估工作流（收集 → 初评 → 迭代 → 生产监控），以及新手起步的四个具体步骤。Aman 断言：写好评估的能力正在成为 2025 年及以后 AI PM 的核心定义性技能。

正文

第一章：为什么评估如此重要

一个真实场景

假设你正在为旅游预订网站构建一个行程规划 AI Agent（AI 代理）。用户输入自然语言请求，如"我想在旧金山附近找个轻松的周末度假地，预算 1000 美元以内"，Agent 会搜索最佳航班、酒店和当地体验。

构建时一切正常——直到上线后，愤怒的客户涌入客服：Agent 给他们订了去圣地亚哥的航班，而不是旧金山。

评估是什么

评估（Evals）是衡量 AI 系统质量和效果的方法。它像回归测试或基准指标，明确定义了对你的 AI 产品来说"好"到底意味着什么——超越简单的延迟检测或通过/失败检查。

评估 AI 系统不像传统软件测试，而更像给人做驾驶考试：

环境感知：能否正确解读信号并对变化做出反应？
决策能力：能否在不可预测情况下做出正确选择？
安全性：能否始终遵循指令并安全到达目的地？

正如你不会让没通过驾考的人上路，你也不应该让未通过深思熟虑的评估的 AI 产品上线。

第二章：三类评估方法

1. 人工评估（Human Evals）

在产品中设计人类反馈闭环——例如在 LLM 响应旁添加点赞/点踩或评论框。也可以聘请人工标注员（主题专家）提供标签和反馈，用于对齐人类偏好（如通过 RLHF，即基于人类反馈的强化学习）。

优点：直接与终端用户关联。
缺点：反馈稀疏（多数人不点击点赞/踩），信号不够强，成本高。

2. 代码评估（Code-based Evals）

利用 API 调用或代码生成的检查——例如生成的代码是否"有效"且能运行。

优点：便宜、快速编写，从简单字符串检查到复杂逻辑检查均可。
缺点：不适用于主观或开放式任务。

3. LLM 评估（LLM-based Evals）

使用外部 LLM 作为"裁判法官"，通过 Prompt 对 Agent 系统的输出进行评分。可以用自然语言描述评判标准，PM 可以直接编写。

优点：高度可扩展（像人类标注但便宜得多），可用自然语言编写，能让 LLM 解释其判断理由。虽然单个判断可能主观，但在大数据集上具有实证价值。
缺点：需要先用标注示例验证裁判 LLM 的表现，结果是概率性而非确定性。

第三章：评估四要素公式

每一条优秀的 LLM 评估包含四个部分：

设定角色：为裁判 LLM 设定角色（如"你正在审阅书面文本"）。
提供上下文：从应用中传入实际数据（如对话链或 Agent 生成的回复）。
明确目标：清晰定义成功与失败的样貌，将微妙的用户期望转化为精确的评判标准。
定义术语和标签：例如"毒性"在不同语境下含义不同，需精确定义以让裁判 LLM 正确理解。

示例：行程规划 Agent 的友善度评估

角色："你是一个裁判，评估书面文本。"
上下文："以下是文本：{text}"（变量 {text} 填充 Agent 回复）。
目标："判断 LLM Agent 的回复是否友善。"
术语："'友善'定义为回复中使用感叹号且整体有帮助性，回复绝不应有负面语气。"

第四章：四阶段评估工作流

阶段一：收集（Collection）

收集真实用户交互：捕获真实使用场景，通过直接反馈、分析或手动检查。
记录边缘案例：识别异常或意外交互。
构建代表性数据集：使用 10-100 个人标注示例作为评估的事实标准（Ground Truth）。从电子表格开始，后续考虑开源工具如 Phoenix（开源）管理数据。

阶段二：初评（First-pass Evaluation）

按四要素公式编写初始评估 Prompt。
对数据集运行评估，目标是与人工标注事实标准达到至少 90% 准确率。
识别失败模式——评估在哪些地方与人工标签不一致？迭代 Prompt。

阶段三：迭代循环（Iteration Loop）

优化评估 Prompt：持续调整直到性能达标。可通过添加少量"好"/"坏"示例做 Few-shot Prompting（少样本提示）。
扩展数据集：定期添加新示例和边缘案例。
迭代 Agent Prompt：当你修改底层 AI 系统（如从 GPT-4o 切换到 Claude 3.7 Sonnet），重跑数据集并通过评估 Agent 比较新旧输出得分。

阶段四：生产监控（Production Monitoring）

持续评估：对所有实时交互自动运行评估，获取随时间变化的得分趋势。
对比评估结果与实际用户反馈：寻找差异并改进评估框架。
构建可操作的评估仪表盘：将评估指标与业务结果关联，作为系统改动的先行指标（Leading Metric）。

第五章：新手起步四步法

选一个关键功能：从一个明确组件开始（如聊天机器人的幻觉检测），而非复杂内部逻辑。
写一条简单评估：检查 LLM 输出是否正确引用提供的内容，或是否编造（幻觉）信息。
在 5-10 个代表性示例上运行。
审查结果并迭代，持续优化评估 Prompt 直到准确率提升。

第六章：常见错误与避坑指南

评估过于复杂、过快：产生"噪声"信号，导致团队丧失信任。先从特定输出开始。
不测试边缘案例：在 Prompt 中提供一两个"好"/"坏"的 Few-shot 示例来锚定裁判 LLM。
忘记验证评估结果是否与实际用户反馈对齐：你不是在测代码，而是在验证 AI 能否真正解决用户问题。

结语

随着 AI 产品日趋复杂，写好评估的能力将越来越关键。评估不只是为了抓 Bug——它们是确保 AI 系统持续交付价值、持续取悦用户的关键步骤。评估是从原型走向生成式 AI 生产级部署的关键一跳。

注：本文作者 Aman Khan 是 Arize AI 产品总监，与 Andrew Ng 合作开发了 Evaluating AI Agents 课程。开源评估工具推荐 Phoenix 和 Ragas。