超越主观感觉:PM 的 AI 评估(Evals)完全指南

摘要

每个构建 AI 产品的 PM 都在痴迷于优化提示词(Prompt)和使用最新的大语言模型(LLM),却几乎没人掌握那个隐藏的关键杠杆——评估(Evals)。本文作者 Aman Khan 是 Arize AI 产品总监、曾与 Andrew Ng 合作开发评估课程,曾任职于 Spotify、Cruise、Apple。他指出:评估是唯一能让你拆解 AI 系统的每个步骤、精准衡量每次改动对产品影响的工具。文章从实际案例出发(行程规划 AI Agent 将旧金山订成圣地亚哥),系统地介绍了三类评估方法(人工评估、代码评估、LLM 评估)、四要素评估公式、四阶段评估工作流(收集 → 初评 → 迭代 → 生产监控),以及新手起步的四个具体步骤。Aman 断言:写好评估的能力正在成为 2025 年及以后 AI PM 的核心定义性技能。

正文

第一章:为什么评估如此重要

一个真实场景

假设你正在为旅游预订网站构建一个行程规划 AI Agent(AI 代理)。用户输入自然语言请求,如"我想在旧金山附近找个轻松的周末度假地,预算 1000 美元以内",Agent 会搜索最佳航班、酒店和当地体验。

构建时一切正常——直到上线后,愤怒的客户涌入客服:Agent 给他们订了去圣地亚哥的航班,而不是旧金山。

评估是什么

评估(Evals)是衡量 AI 系统质量和效果的方法。它像回归测试或基准指标,明确定义了对你的 AI 产品来说"好"到底意味着什么——超越简单的延迟检测或通过/失败检查。

评估 AI 系统不像传统软件测试,而更像给人做驾驶考试:

正如你不会让没通过驾考的人上路,你也不应该让未通过深思熟虑的评估的 AI 产品上线。


第二章:三类评估方法

1. 人工评估(Human Evals)

在产品中设计人类反馈闭环——例如在 LLM 响应旁添加点赞/点踩或评论框。也可以聘请人工标注员(主题专家)提供标签和反馈,用于对齐人类偏好(如通过 RLHF,即基于人类反馈的强化学习)。

2. 代码评估(Code-based Evals)

利用 API 调用或代码生成的检查——例如生成的代码是否"有效"且能运行。

3. LLM 评估(LLM-based Evals)

使用外部 LLM 作为"裁判法官",通过 Prompt 对 Agent 系统的输出进行评分。可以用自然语言描述评判标准,PM 可以直接编写。


第三章:评估四要素公式

每一条优秀的 LLM 评估包含四个部分:

  1. 设定角色:为裁判 LLM 设定角色(如"你正在审阅书面文本")。
  2. 提供上下文:从应用中传入实际数据(如对话链或 Agent 生成的回复)。
  3. 明确目标:清晰定义成功与失败的样貌,将微妙的用户期望转化为精确的评判标准。
  4. 定义术语和标签:例如"毒性"在不同语境下含义不同,需精确定义以让裁判 LLM 正确理解。

示例:行程规划 Agent 的友善度评估


第四章:四阶段评估工作流

阶段一:收集(Collection)

  1. 收集真实用户交互:捕获真实使用场景,通过直接反馈、分析或手动检查。
  2. 记录边缘案例:识别异常或意外交互。
  3. 构建代表性数据集:使用 10-100 个人标注示例作为评估的事实标准(Ground Truth)。从电子表格开始,后续考虑开源工具如 Phoenix(开源)管理数据。

阶段二:初评(First-pass Evaluation)

  1. 按四要素公式编写初始评估 Prompt。
  2. 对数据集运行评估,目标是与人工标注事实标准达到至少 90% 准确率
  3. 识别失败模式——评估在哪些地方与人工标签不一致?迭代 Prompt。

阶段三:迭代循环(Iteration Loop)

  1. 优化评估 Prompt:持续调整直到性能达标。可通过添加少量"好"/"坏"示例做 Few-shot Prompting(少样本提示)。
  2. 扩展数据集:定期添加新示例和边缘案例。
  3. 迭代 Agent Prompt:当你修改底层 AI 系统(如从 GPT-4o 切换到 Claude 3.7 Sonnet),重跑数据集并通过评估 Agent 比较新旧输出得分。

阶段四:生产监控(Production Monitoring)

  1. 持续评估:对所有实时交互自动运行评估,获取随时间变化的得分趋势。
  2. 对比评估结果与实际用户反馈:寻找差异并改进评估框架。
  3. 构建可操作的评估仪表盘:将评估指标与业务结果关联,作为系统改动的先行指标(Leading Metric)。

第五章:新手起步四步法

  1. 选一个关键功能:从一个明确组件开始(如聊天机器人的幻觉检测),而非复杂内部逻辑。
  2. 写一条简单评估:检查 LLM 输出是否正确引用提供的内容,或是否编造(幻觉)信息。
  3. 在 5-10 个代表性示例上运行
  4. 审查结果并迭代,持续优化评估 Prompt 直到准确率提升。

第六章:常见错误与避坑指南

  1. 评估过于复杂、过快:产生"噪声"信号,导致团队丧失信任。先从特定输出开始。
  2. 不测试边缘案例:在 Prompt 中提供一两个"好"/"坏"的 Few-shot 示例来锚定裁判 LLM。
  3. 忘记验证评估结果是否与实际用户反馈对齐:你不是在测代码,而是在验证 AI 能否真正解决用户问题。

结语

随着 AI 产品日趋复杂,写好评估的能力将越来越关键。评估不只是为了抓 Bug——它们是确保 AI 系统持续交付价值、持续取悦用户的关键步骤。评估是从原型走向生成式 AI 生产级部署的关键一跳。

注:本文作者 Aman Khan 是 Arize AI 产品总监,与 Andrew Ng 合作开发了 Evaluating AI Agents 课程。开源评估工具推荐 Phoenix 和 Ragas。