构建AI产品感知力(第二部分):一份每周15分钟的修炼指南
帮助你理解并设计能在混乱现实世界中可靠运行的可信赖AI产品
👋 你好,我是莱尼(Lenny)。每周我都会回答读者关于产品构建、增长驱动和职业加速的问题。更多内容请关注:莱尼的播客(Lenny's Podcast) | How I AI | Lennybot | 我推荐的 AI/PM课程、公开演讲课程 和 面试准备助手。
P.S. 订阅者可免费获得一年 Lovable、Manus、Replit、Gamma、n8n、Canva、ElevenLabs、Amp、Factory、Devin、Bolt、Wispr Flow、Linear、PostHog、Framer、Railway、Granola、Warp、Perplexity、Magic Patterns、Mobbin、ChatPRD 和 Stripe Atlas 的使用权限。是的,这是真的。
在我们关于构建AI产品感知力(AI product sense)深度系列的第二部分(不要错过第一部分),玛丽莉·尼卡博士(Dr. Marily Nika)——一位曾在谷歌(Google)和Meta担任AI产品经理(PM)多年的资深专家,也是AI教育领域的先行者——分享了一套你今天就可以实施的简单每周修炼法,帮你快速建立AI产品感知力。让我们开始吧。
了解更多来自玛丽莉(Marily)的内容,请查看她的 AI产品管理训练营与认证 课程(也可为企业提供私人定制培训)以及她最近推出的 AI产品感知力与AI PM面试准备 课程(通过以上链接购买两个课程均可享受85折优惠)。你也可以观看她的免费闪电课,了解如何在AI时代成为一名出色的高级独立贡献者PM(IC PM),并订阅她的Newsletter。
Meta最近增加了一项全新的PM面试环节,这是其PM面试流程五年多来的首次重大变化。这项面试被称为"AI产品感知力(Product Sense with AI)",候选人被要求借助AI实时解决一个产品问题。
在这项面试中,评判标准不是巧妙的提示词(prompt)、模型知识,甚至不是炫目的演示。候选人被评估的是他们如何处理不确定性:如何察觉模型在猜测、如何提出正确的追问,以及如何在信息不完美的情况下做出清晰的产品决策。
这一转变反映了一个更宏大的趋势。AI产品感知力——理解模型能做什么、会在哪里失败,并在这些约束下构建用户喜爱的产品——正在成为产品管理的核心新技能。
过去一年里,我在工作和培训中反复观察到同一个模式:AI在受控流程中表现完美……然后因为少数可预测的失败模式(failure mode)而在生产环境中崩溃。一个令人不安的事实是:AI产品开发中最困难的部分,往往发生在真实用户带着混乱输入、模糊意图和零耐心到来的时候。例如,一个客户支持智能体(agent)在演示中可能令人惊艳,但上线后却会因为自信地回答含糊不清或信息不足的问题(比如"这个东西好吗?")——而不是停下来要求澄清——而悄然失去用户的信任。
在语音识别和说话人识别(speaker identification)领域为对话式平台和个性化体验(设备端助手及多样化硬件产品组合)交付产品的十年中,我提炼出一套简单、可重复的工作流程,用来提前发现那些本会在数周后才暴露的问题。我先用这套流程建立自己的AI产品感知力,然后推广到团队和学生中。它不是一个理论或框架,而是一种重要的实践——它给你关于模型行为、失败模式和权衡取舍的早期反馈,迫使你在用户以惨痛方式教会你之前,先看清这个AI产品是否经得起现实的考验。当我运行这套流程时,两件事会迅速发生:我不再对模型行为感到意外,因为我已经亲身体验过那些奇怪的情况;我能清楚地分辨出什么是产品问题,什么是模型局限。
在这篇文章中,我将详细介绍构建AI产品感知力的三个步骤:
1. 绘制失败模式(及预期行为)图谱
2. 定义最低可行质量(MVQ)
3. 在行为断裂处设计护栏(guardrails)
一旦AI产品感知力这组肌肉发展起来,你就能够从几个具体维度评估产品:模型在模糊情境下如何表现、用户如何体验失败、信任在何处获得或丧失,以及成本如何随规模变化。这本质上是理解和预测系统在不同环境下会如何响应。
换句话说,工作的范围从"这是一个好的产品创意吗?"扩展到了"这个产品在真实世界中会如何表现?"
让我们开始构建AI产品感知力。
第一步:绘制失败模式(及预期行为)图谱
每个AI功能都有一个失败特征(failure signature):当世界变得混乱时,它会可靠地陷入的那组崩溃模式。而构建AI产品感知力最快的方法,就是在你的用户之前,刻意将模型推入这些失败模式。
我每周执行以下仪式一次,通常在周三上午第一次会议之前,针对我当前正在构建的任何AI工作流。全部加起来不到15分钟,但每一秒都值得。结果始终能为我提前揭示那些本会在生产环境中很久之后才会出现的问题。
仪式一:让模型做一件明显错误的事(2分钟)
目标: 理解模型将结构强加于混乱的倾向
拿每个PM日常处理的那些混乱、半成型、情绪不一致的数据——比如Slack消息线程、会议记录、Jira评论——然后让模型从中提取"战略决策"。因为这是生成式模型展现出最危险模式的地方:
面对混乱时,它们会自信地发明结构。
以下是一个混乱的Slack线程示例:
Alice: "Stripe又对欧盟用户出错了?"
Ben: "不知道,可能是webhook的问题?"
Sara: "哈哈我们能不能别再重命名那个新手引导弹窗了?"
Kyle: "还没想好暗黑模式怎么做"
Alice: "周四之前必须搞定新手引导"
Ben: "等等,移动端的banner还是坏的???"
Sara: "我可以之后再改文案"
我让模型从这个线程中提取"战略产品决策",它自信地编造了一个路线图(roadmap),分配了错误的负责人,并把随口一提的评论变成了承诺。这就是每个AI PM都必须围绕设计的那种失败特征。
它看起来权威、清晰、结构化。而且完全错误。
现在你得到了明显错误的结果,你需要生成"理想"的回应,并比较两种回应,以理解模型需要什么信号才能正确行为。
以下是具体操作步骤:
1. 用相同的Slack线程重新运行模型
使用导致幻觉(hallucination)的同一个混乱上下文。
示例(你将Slack线程粘贴进去):
基于这个Slack讨论,起草我们的Q4路线图。
假设模型发明了你从未讨论过的功能。很好,你找到了一个失败模式。
2. 现在告诉模型"好"的标准,然后再运行一次
添加一行简短说明,解释预期行为。例如:
再试一次,但只包含线程中明确提到的项目。如果有缺失的信息,请说"信息不足"。
对完全相同的Slack线程运行这个提示词。一个正确、可信赖的行为应当是:
这个回答承认缺乏明确的决策,提出澄清性问题,并在不捏造事实的情况下提炼出有用的结构("关键主题")。它避免在未经明确说明的情况下分配负责人,并突出不确定性而不是隐藏它们。
3. 并排比较两种输出——以及导致它们的输入
上述两种输出的对比——自信的幻觉vs.谦逊的清晰——教会你模型今天的行为方式,以及你需要朝什么方向设计。这种对比正是AI产品感知力磨炼最快的地方。
你需要关注:
- 什么变了?
- 什么护栏修复了幻觉?
- 模型需要什么才能可靠地运行?(明确的约束?更好的上下文?更严格的范围界定?)
- "好"的版本是否感觉可以交付,还是依然脆弱?
- 用户在每个版本中的体验会是什么样?
4. 捕获差距——这将成为产品需求
当你看到一种失败模式反复出现时,它通常指向一种特定类型的产品差距(以及特定类型的修复方案)。
现在你知道了产品在哪里失败以及其预期行为。在本指南的后面部分,我将展示提示词护栏、设计护栏和检索(retrieval)在实际中是什么样的具体示例,以及如何决定何时添加它们。
仪式二:让模型做一件模糊的事(3分钟)
目标: 理解模型的语义脆弱性(semantic fragility)
模糊性是概率系统的克星,因为如果模型没有完全理解用户的意图,它会用最佳猜测来填补空白(即幻觉、糟糕的想法)。这就是用户信任开始破裂的时刻。例如,尝试将一份产品需求文档(PRD)输入到NotebookLM中,并要求它"为产品VP总结这份PRD。"
如何在2分钟内尝试(使用NotebookLM):
- 打开NotebookLM → 创建一个新的笔记本
- 上传一份PRD(Google Doc/PDF均可)
- 提问:"为高管总结这份文档,并列出前5大风险和待解决问题。"
它会:
- 过度总结吗?
- 抓住一个无关的细节不放吗?
- 忽略前提条件吗?
- 假设了错误的受众吗?
模型的失败揭示了它的语义脆弱性所在——即模型在技术上理解你的文字但完全错过你意图的那些方面。其他例子包括:你要求为领导层做总结,它却给了你一个表情符号和线程中笑话的列表。或者你要求找出用户体验问题,它却自信地提出了一套新的定价模型。
你在这里学到的是模型在何处产生困惑,而这正是你的产品应该介入并努力减少模糊性的地方。这可能意味着要求用户选择目标("为谁总结?"),给模型更多上下文,或者约束操作范围使模型无法偏离轨道。你不是在试图"欺骗"模型;你是在理解沟通在何处断裂,以便通过设计来防止误解。
模糊提示词:测试什么、会出什么错、该怎么做
以下是几个可以尝试的模糊提示词,以及你应明确测试的不同解读方式:
现在你又获得了一批设计工作,来帮助AI产品引导模型走向可预测且可信赖的结果。
仪式三:让模型做一件出人意料地困难的事(3分钟)
目标: 理解模型的第一失效点
选择一个对人类PM来说感觉简单、但对模型的推理、上下文理解或判断力构成压力的任务。
你不是在试图穷举测试模型。你是在试图看清它首先在哪里断裂,这样你就能知道产品需要在哪里添加组织性结构。它开始出错的地方,正是你需要设计护栏、缩小输入范围或将任务拆分为更小步骤的地方。
注意: 这还不是最终解决方案;这是预期行为。在后面的护栏部分,我将展示如何将其转化为产品中的显式规则(提示词 + 用户体验 + 降级行为)。
示例1:"将这40个缺陷(bug)按主题分组,并提出路线图。"
示例2:"总结这份PRD并为领导层标记风险。"
通过三个仪式的所有结果,你现在拥有了一份完整的产品设计工作清单,需要完成这些工作才能得到你和用户可以使用和信任的结果。
随着时间的推移,这类工作还会开始揭示二阶效应——那些微小的AI功能悄然重塑工作流、默认行为和期望的时刻。系统层面的洞察会在基础稳固之后到来。首要目标是理解行为。
第二步:定义最低可行质量(MVQ)
即使你理解了模型的失败模式并围绕它们进行了设计,也几乎不可能完全预测AI功能在进入真实世界后会如何表现,但性能几乎总是在脱离受控开发环境后下降。既然你不知道它会如何下降或下降多少,从一开始就保持高标准的最佳方法之一,就是定义一个最低可行质量(minimum viable quality, MVQ),并在整个开发过程中用它来检验你的产品。
一个强有力的MVQ明确定义了三个阈值:
- 可接受标准: 对真实用户来说足够好的水平
- 惊喜标准: 功能让人感觉神奇的水平
- 不可发布标准: 会破坏信任的不可接受的失败率
MVQ中同样重要的是产品的成本边界(cost envelope):该功能在规模化运行时为你的用户所花费的大致成本范围。
一个关于MVQ的具体例子来自我的亲身经历。我在语音识别和说话人识别领域工作多年,在这个领域,实验室准确率与真实世界准确率之间的差距是肉眼可见的。
我至今记得那些演示:模型在受控测试中达到90%以上的准确率,然后在第一次在真实家庭中试用时完全崩溃。一只吠叫的狗、一台运行的洗碗机、有人在房间另一端说话,突然间这个"优秀"的模型感觉像是坏掉了。而从用户的角度来看,它就是坏了。
以智能音箱的AI功能中的说话人识别为例——识别谁在说话的能力——其MVQ会是这样的:
可接受标准
- 在典型家庭条件下,正确识别说话人的比例达到x%
- 在不确定时优雅地降级("我不确定谁在说话——我应该使用你的个人资料还是以访客身份继续?")
惊喜标准
你不需要一个完美的百分比才能知道你达到了正确的惊喜标准,而是寻找行为信号,比如:
- 用户停止重复自己的话或改述命令
- "不,我是说……"的纠正急剧下降
经验法则:如果在真实条件下10次尝试中有8到9次无需重试就能成功,那感觉就是神奇的。如果每5次就有1次需要重试,信任会迅速瓦解。MVQ也取决于你所处的阶段。在封闭测试(beta)阶段,用户通常容忍粗糙边缘,因为他们期待迭代。在大规模发布中,同样的失败模式会让人觉得产品是坏的。
以下是评估语音识别功能"惊喜"体验的一些示例:
- 背景干扰测试:在背景播放视频的同时,两个人互相交谈,看看助手是否仍然正确响应而不说"抱歉,能再说一遍吗?"
- 傍晚六点厨房测试:洗碗机在运行,孩子们在说话,狗在吠叫——而智能音箱仍然能识别出你并给出个性化回复,没有"我无法识别你的声音"的中断。
- 中途修正测试:你说"设置一个10分钟的计时器……实际上,改成5分钟",它正确更新了而不是坚持原始指令。
不可发布标准
- 在关键流程(购买、消息、个性化操作)中错误识别说话人的比例超过y%
- 迫使用户多次重复才能被识别
你可能注意到我并没有给每个标准分配具体数值。这是因为MVQ的具体阈值(你的"可接受"、"惊喜"和"不可发布"标准)并不是固定的。它们在很大程度上取决于你的战略背景(strategic context)。
影响MVQ标准高低的五个战略背景因素
以下是五个最经常决定这个标准应设在何处的因素,以及它们如何改变你的产品决策:
估算成本边界
新AI PM最常犯的错误之一,就是在没有检查其财务可行性之前就爱上了某个神奇的AI演示。这就是为什么尽早估算AI产品或功能的成本边界很重要。
成本边界 = 该功能在规模化运行时为你的用户所花费的大致成本范围
你不需要精确数字,但需要一个大致的范围。从以下问题开始:
- 每次调用的模型成本是多少(粗略估计)?
- 用户每天/每月会触发多少次?
- 最坏情况是什么(重度用户、边缘案例)?
- 缓存(caching)、更小的模型或蒸馏(distillation)能否降低成本?
- 如果使用量增长10倍,数学上还算得过来吗?
示例:AI会议记录
- 每次调用成本:处理30分钟转录约$0.02
- 平均使用量:每位用户每月20次会议 → 约$0.40/月/用户
- 重度用户:每月100次会议 → 约$2.00/月/用户
- 通过缓存和用更小的模型处理"低风险"会议,可能将平均成本降至约$0.25–$0.30/月/用户
现在你可以进行真正的讨论了:
- 一个实际成本为$0.30/用户/月且能驱动留存的功能,毫无疑问值得做。
- 一个最终达到$5/用户/月且影响不明确的功能,就是一个商业问题。
这是AI产品感知力的核心组成部分:你所提议的东西对业务来说真的有意义吗?
第三步:在行为断裂处设计护栏
现在你更好地理解了模型的行为在哪里断裂,以及你需要什么标准才能批准发布,是时候将一些护栏编码并设计到产品中了。一个好的护栏决定了当模型触及极限时产品应该做什么,这样用户就不会感到困惑、被误导或丧失信任。实际上,护栏保护用户不体验到模型的失败模式。
在我合作过的一家初创公司,我们构建了一个AI功能来提高团队生产力,它可以将冗长的Slack线程总结为"决策和行动项"。在测试中,它运行良好——直到它开始为行动项分配负责人,而实际上还没有人同意任何事情。有时它甚至选了错误的人。
因为我的团队已经建立了我们的AI产品感知力,我们发现修复方案是产品中的一个新护栏,而不是换一个不同的底层模型。
于是我们在系统提示(system prompt)中添加了一条简单的规则(在这种情况下,只是额外的一行指令):
只有当某人明确自愿或被直接要求并确认后,才分配负责人。否则,提炼主题并询问用户下一步该怎么做。
这一条约束几乎立即消除了最大的信任问题。
好的护栏在实践中是什么样子的
这些措施没有一项能让模型更"智能"。好的护栏只是保护用户免受模型缺陷的影响,并防止误解。
你提前决定系统应该如何放慢节奏、请求帮助、缩小范围或说"我不知道"。这就是AI产品如何优雅地失败而不是灾难性地崩溃。
仪式四:在系统提示中添加显式的失败响应(3分钟)
在第一部分中,你揭示了系统在哪里断裂。现在你将决定产品在它断裂时应该做什么。
-
取一个真实、混乱的输入——一个会议转录、一个Slack线程、一个支持日志——然后多次输入到同一个AI对话中。每次都问同样的问题,例如:
-
"前5个决策是什么?"
-
然后并排比较答案。寻找:
-
它每次选了不同的"决策"吗?
- 它发明了文本中不存在的决策吗?
- 它反复遗漏了同一个重要决策吗?
-
标记变化的内容(以及为什么重要),并问自己:
-
如果用户看到这10个输出中最差的版本,他们还会信任这个产品吗?
- 基于你看到的情况添加一条护栏:
涵盖大多数真实场景的四种模式
1. 当模型看起来不确定时 → 提问而不是猜测
在实践中,这通常意味着在系统提示或任务提示中添加一条显式指令,例如:
"如果你不确定,提出一个澄清性问题,而不是做出假设。"
小问题能走很远:
- "你是想要摘要还是关键决策?"
- "我应该聚焦在新手引导还是支付上?"
这些检查往往能防止下游出现更大的错误。
2. 当上下文太长时 → 给用户一个选择
不要让模型静默地丢弃信息:
"这个线程很长——我应该聚焦在前半部分、后半部分,还是只关注行动项?"
这快速、诚实,且避免了幻觉。
3. 当模型发明结构时 → 如实告知
如果输入中没有决策、负责人或清晰的结论:
"我在这里没有看到任何决策——你想要主题概览吗?"
透明建立信任。
4. 当输出结果飘忽不定时 → 添加轻量级结构
如果同样的请求产生差异巨大的答案,用一个简单的格式来稳定它:
"列出:讨论了什么、决定了什么、需要跟进什么。"
这减少了方差,同时不会让产品变得僵硬。
所以在最近一次产品评审中,当有人要求我"修复模型"时,我反而决定了产品在模型触及极限时该做什么。
优秀的AI产品感知力意味着可靠的用户体验
AI产品感知力是一组通过重复练习来建立的肌肉:通过观察真实的输出、捕捉真实的失败模式,以及在不确定性下做出真实的产品决策。
一件让我惊讶的事是:我最近问我的AI PM训练营学生(以及一些PM同行)"AI产品感知力"对他们意味着什么,我得到了截然不同的答案。
有人描述为模型知识。
有人描述为评估。
有人描述为提示词工程。
有人描述为安全性。
有人描述为成本和单位经济效益。
我们正处于一项新的PM技能成为主流的早期阶段,整个行业仍在趋同于"优秀"到底是什么样子。但在交付、指导和观察AI产品在生产环境中崩溃之后,我发现实用的定义要简单得多。AI产品感知力是将概率性模型行为转化为人们可以依赖的产品体验的能力。这正是本指南的真正核心——培养那种直觉:在模型会猜测而非提问的地方进行预判,在发布前定义质量标准(包括成本),并设计护栏使失败变得可预测且可恢复。
每周运行这些仪式一次,AI产品感知力就不再是抽象的概念。你将不再对奇怪的输出感到意外,因为你会设计更清晰的提问、更严格的约束和更好的降级策略——因为你知道事情会在哪里断裂。在2026年,能够脱颖而出的将是那些能在混乱输入、模糊意图和零耐心面前,依然交付令人信赖的产品的PM。
感谢你,玛丽莉!
了解更多来自玛丽莉的内容,请查看她的 AI产品管理训练营与认证 课程(也可为企业提供私人定制培训)以及她最近推出的 AI产品感知力与AI PM面试准备 课程(通过以上链接购买两个课程均可享受85折优惠)。你也可以观看她的 免费闪电课,了解如何在AI时代成为一名出色的高级独立贡献者PM,并订阅她的Newsletter。
祝你度过充实而富有成效的一周 🙏
如果你觉得这份Newsletter有价值,请分享给一位朋友,如果你还没有订阅,可以考虑订阅。我们提供团体折扣、礼品选项和推荐奖励。
真诚地,
莱尼(Lenny) 👋