如何做值得信赖的 AI 分析

四种提示技巧,防止 AI 最常犯的错误

作者:Caitlin Sullivan | 2026-02-17

摘要: 大语言模型(Large Language Model,LLM)的分析输出总是看起来信心满满——即使充满编造的引文、错误的结论和虚假的洞察。用户研究专家 Caitlin Sullivan 基于 2000+ 小时的 AI 客户发现(Customer Discovery)工作流测试,揭示了 AI 分析的四大失败模式——虚构证据、虚假或泛化洞察、无法指导决策的"信号"、以及被掩盖的矛盾——并逐一给出了经过实战验证的提示词(Prompt)修复方案。核心理念是:15 分钟的验证,还是 6 个月后才发现建错了产品——这是你必须面对的选择。


第一章:那些"信心满满"的 AI 分析,问题出在哪?

AI 分析最大的问题在于:输出结果总是看起来自信十足——即便充满了谎言:编造的引文、虚假的洞察和完全错误的结论。正如本期客座作者 Caitlin Sullivan 所言:

"这些错误在利害相关方提出你回答不了的问题、或者三个月后决策崩盘、或者你意识到某笔重大投资背后的'客户证据'其实满是漏洞之前,都是看不见的。"

Caitlin 是一位用户研究(User Research)资深从业者,她培训过数百名来自大小公司的产品和研究专业人士,并为 Canva、YouTube 等公司的团队提供咨询。她将同样的客户对话转录文本输入两个模型,得到了截然不同的结果:

在实践中,你只会收到一份输出——它读起来自信满满,你就会在此之上构建下一个决策,永远看不到缺失了什么。这正是验证的重要性所在。


第二章:为什么 AI 面对用户研究数据如此挣扎?

在深入四大失败模式之前,需要理解为什么这类数据对 AI 来说特别困难。

访谈是非结构化且混乱的

一场 45 分钟的用户研究访谈,是一场凌乱的、游走的对话。受访者可能自相矛盾,可能跑题,可能在第 8 分钟说了重要的话,到第 35 分钟又完全重新表述。

大语言模型的处理方式是强加结构、过快跳向结论。它们迅速找到干净的主题、拉取最匹配的引文、产出整洁的摘要,然后收工。但真正的分析需要在混乱中静坐——注意矛盾、权衡离题内容、捕捉语气变化。没有明确的指导,AI 会把这一切压扁成看起来像洞察、却错过了真正重要之物的东西。

即便问卷看似结构化,实则不然

你可能会认为 CSV 文件很容易解析——行列分明,能有什么复杂的?很多。

一列 200 条对"你为什么取消?"的回答,和访谈数据一样混乱,甚至更糟,因为你完全没有上下文。在访谈中,你记得对方犹豫了,或者刚抱怨过某个特定功能。在问卷中,你只能得到"不适合我"这样的回答,其他什么都没有。

你的 CSV 也可能不如你以为的那么干净:不同工具导出格式不同,SurveyMonkey 可能把问题文本放在表头,而 Qualtrics 导出表头用的却是内部代码。有些导出甚至包含元数据列——时间戳、内部标签——直接坐在客户回复旁边,没有明确区分。如果你不告诉 AI 哪些列包含客户的声音、哪些需要忽略,它会把所有东西都当作信号来分析。Caitlin 就见过 AI 把内部备注("标记为跟进")当作客户说的话。

即使是"结构化"的列也隐藏着复杂性。一个标题写着"Q3_churn probability"(流失概率),对 AI 来说什么也说明不了:不知道量表是什么、问题措辞如何、5/5 到底好不好。

关键结论:修复以下四个问题,通常能把 AI 分析结果的可靠性和相关性各提升 10 倍。


第三章:不同模型,各有所长

并非所有大语言模型在分析工作上都是平等的。Caitlin 在 Claude、ChatGPT、Gemini 之间运行了超过 100 次相同的分析流程:

模型 最佳用途 优势 权衡
Claude 深度的、有细微差别的全面分析 提供更多引文,覆盖面更广,不需过多推动 给出"全脑转储",主题未必得到充分"证明"——你获得的是广度,而非仅安全的模式
Gemini(含 NotebookLM) 高证据强度的主题分析,以及视频分析 主题少但根基更扎实;独特优势:可分析视频中的非语言行为(其他两个目前做不到) 需多次提示才能获得完整性,并且要主动要求更长引文
ChatGPT 最终框架呈现和利益相关方沟通 三个模型中最具创造力——包括在"逐字引文"方面(不幸的是);擅长将相关发现打包给特定受众 对真实证据最不可靠(会合并引文)

推荐:如果可以选择,用 Claude 做分析工作。它覆盖范围更广,同时扎根于实际数据。但需自行验证主题是否证据充分。


第四章:四大失败模式与修复方案(上)

经过 2000 多小时 AI 客户发现工作流的测试,Caitlin 发现了 AI 分析的四种独特失败模式——以及跨平台、跨数据类型、跨模型、跨工作流始终有效的修复方案。

失败模式一:虚构证据(Invented Evidence)

表现:尽管推理模型有了巨大改进,幻觉(Hallucination)依然大量存在:

当你在提示中加入"每条不超过 100 字"或"为每个主题给出一个精炼的代表性引文(≤12 字)"这类短语时,几乎总会得到拼凑出来的引文。

根本原因:大语言模型不像搜索引擎一样"检索"引文——它们根据上下文生成统计上最可能的文本。"逐字(Verbatim)"对于模型来说是一个模糊的词:精确到字符?标点可以不同吗?填充词呢?引文从哪里开始、到哪里结束?模型用你永远看不到的假设填满了这些空白。就连参与者 ID 和时间戳都可能被伪造——一个像"[P03, 14:30]"这样的引用看起来权威,但如果引文是编造的,它就毫无意义。

修复方案——引文选择规则 + 验证

第一步,定义你的引文"规则":

QUOTE SELECTION RULES

  • 从思想的起点开始,持续到充分表达完毕
  • 包含推理过程,而不只是结论
  • 保留缓词和限定词——它们标志着不确定性
  • 当存在情绪化语言时,将其保留
  • 用参与者 ID 和大致时间戳引用 [P02 ~14:30]
  • 不要合并来自访谈不同部分的陈述
  • 如果引文超过 3 句,拆分为独立引文

第二步,用验证提示确认这些引文真实存在:

QUOTE VERIFICATION

对上述分析中的每条引文:

  1. 确认引文在源转录文本中以逐字形式存在
  2. 如果是近似转述而非精确,标记并给出实际措辞
  3. 如果无法定位,标记为 NOT FOUND

输出格式:

  • 引文:[引文内容]
  • 状态:VERIFIED / PARAPHRASE / NOT FOUND
  • 若为转述:实际措辞:[他们说了什么]
  • 位置:[参与者 ID、时间戳或行号]

Caitlin 实际运行这一验证后,发现 ChatGPT 之前输出的大部分引文是转述而非原始客户陈述——而这仅仅是请求一小部分引文的结果。想象一下当你处理 20 个访谈、拿回同样多的模式时会发生什么。没有验证,这些"引文"就会被归因到真实的参与者名下,出现在你的演示文稿中。有时候没什么大不了,但有时,这就是产品语言能否产生强烈共鸣的分水岭。


失败模式二:虚假或泛化洞察(False or Generic Insights)

表现:AI 找到的主题过于宽泛、无法行动,或者被你无意中引导的偏见所扭曲。产品经理们经常抱怨:"AI 分析告诉我的都是我已经知道的"或"这些洞察太泛化了,我没法用它做任何事"。

典型输出如:
- "价格是决策因素"
- "人们重视可靠性"
- "用户想要更多实时信息"

这些描述确实没错,但对艰难决策来说毫无用处。当有人取消时说"不适合我",AI 只能猜测其含义——它可能意味着"对我得到的东西来说太贵了""我作为一个运动员不够认真""我不想再多充一个设备"或"我需要屏幕而 Whoop 没有"——一个回答,四种完全不同的产品决策含义。

根本原因:AI 默认寻找共识,因为大语言模型是模式发现机器。它浮出那些轻松上升到顶部的(显而易见的)模式,找到多个参与者提到的内容,然后生成一个模式匹配的主题。但真正最重要的洞察,可能只有少数几个人在这次访谈中提过,但如果更多客户也有同样看法,那将是值得关注的商业信号。大语言模型还会带入训练数据中的先验知识——如果模型见过成千上万份将价格列为第一主题的流失分析,它就会向价格倾斜,即使你的完整数据集并不支持这一点。

修复方案——用足以指导解读的上下文加载(Context Loading)

有效的上下文加载至少需要四个组件:

  1. 项目上下文(Project Context):告诉 AI 范围和风险。"探索是否添加屏幕"是一个有约束条件的具体决策,而"做客户研究"太模糊。
  2. 商业目标(Business Goal):告诉 AI 你想达成什么。如果你需要知道某个功能是吸引新用户还是会疏远现有用户,直接说出来。AI 会把证据权重导向回答你的问题。
  3. 产品上下文(Product Context):给 AI 领域知识。没有它,AI 会泛泛地解读"我想看我的数据";有了它,AI 会在一个与 Apple Watch 竞争的无屏幕可穿戴设备的语境下理解这句话——完全不同的解读。
  4. 参与者概览(Participant Overview):告诉 AI 谁在说话。来自一位从 Garmin 切换过来的流失用户的"我需要实时数据",和来自一位从未用过竞争对手的忠诚用户的同样的话,含义完全不同。

对问卷,还需额外说明数据结构:哪些列是什么、格式有什么特殊之处、编码怎么理解——花 30 秒写下 CSV 文件中任何不够 100% 清晰的部分,就能避免计算错误和解读问题。

在使用明确上下文后,Caitlin 得到了个体判定、统计汇总、以及基于场景的建议——可以直接带到路线图讨论中去的输出。其中一项关键数据:30% 的流失用户会因增加屏幕而被留住。 如果输出仍然泛化或混乱,那就说明上下文还不够具体。


第五章:四大失败模式与修复方案(下)

失败模式三:无法指导更好决策的"信号"(Signal That Doesn't Guide Better Decisions)

表现:你让 AI 分析数百条取消问卷的回复。它告诉你:"22 位受访者提到想要屏幕"或者"屏幕功能的情感倾向为 72% 正面"。

很好。但你应该加屏幕吗?这些数字回答不了这个问题,因为它们没有告诉你:
- 这 22 人中有多少人真的会因为加了屏幕而被留住?
- 有多少人说"屏幕"但其实意思是"更好的应用体验"或"GPS 导航"——仅靠屏幕解决不了的问题?
- 有多少人的问题与屏幕完全无关(账单问题、参与度问题、竞争对手流失),而这些可能对长期满意度和感知价值更重要?

默认的 AI 分析给你的是计数和分类。它不给你决策清晰度(Decision Clarity)。引用 Caitlin 的例子——"I check my phone 10 times per workout"(屏幕会有帮助)和"I went back to Garmin"(需要屏幕但也需要其他功能,如越野跑导航)——对团队来说需要完全不同的解决方案。

根本原因:大语言模型被训练来找模式、做总结。"屏幕"出现 22 次,所以"屏幕价值是一个主题"。但模型不知道哪些提及听起来像信号,实际上却指向截然不同的解决方案。没有指导,AI 无法区分应该驱动你产品路线图的信号和听起来像信号却不是的噪音。

修复方案——用少样本校准(Few-Shot Calibration)教 AI 理解你的量尺

少样本校准意味着给 AI 具体的示例——不是对各个等级含义的描述,而是属于每个桶的实际回答示例,以及为什么这样归类。

Caitlin 以屏幕决策为例构建了一个"解决方案匹配度量表(Solution Fit Scale)":

等级 含义 示例 为什么
1 屏幕会留住用户 "我每次锻炼要检查手机 10 次才能看到心率" 当前替代方案存在具体摩擦,屏幕直接解决
2 更便宜的修复可留住用户 "应用太笨重,运动中查看太麻烦、点击太多" 可视性抱怨,但手机在手边,应用体验修复即可,无需硬件投入
3 需要参与度修复 "就是不怎么用" 自我归咎的表述,无功能抱怨。屏幕解决不了习惯养成问题
4 需要运营修复 "取消了 3 次还一直被扣款,告诉跑步俱乐部所有人避开" 信任/流程失败。屏幕无关。需立即服务恢复
5 无关的竞争流失 "转去 Apple Watch 了,Whoop 挺好的" 无负面语言,未提屏幕。可能是生态/社交/价格驱动

这个结构适用于任何量尺。校准新功能需求?用清晰的例子定义 1 级和 5 级的样子。优先排序功能需求、或更准确地分类中性反馈?同样的方法——关键是展示给 AI 看,而非告诉它。有了正确的校准,AI 能展示给你哪些反馈在说"建这个",哪些在说"先修别的东西"。叠加失败模式一的引文验证,你就能获得可行动的解读加上客户原声中的真实证据。


失败模式四:被掩盖的矛盾洞察(Contradictory Insights)

表现:分析看起来很棒,主题清晰,引文有力,摘要表格已经准备好了。但你从没检查过 AI 到目前为止做的一切是否扎实、是否满是漏洞。你从没找过参与者的陈述之间是否存在矛盾。你从没问过那个"强力支持者"客户是否在行为层面暗示了截然相反的信息。你自信地展示发现——它们在你看不到的地方是错误的,直到有人问了一个你回答不了的问题,或者几周后决策崩盘。

这可能是最常见的失败模式。 即使过去一年大语言模型有了巨大改进,Caitlin 还是经常听到那些在会议上站不住脚的分析的可怕故事。其他三个失败模式——虚构证据、虚假泛化洞察、无法指导决策的"信号"——产生的输出看起来都很棒。但没有验证步骤,你就无从得知它们错了。大多数人跳过矛盾验证,因为第一次分析过程的叙事感觉已经完整了。AI 不会说"对了,我对参与者 03 不太确定"或"你应该再检查一下这个买家旅程"——它以均等的信心呈现所有内容。

根本原因:人类专业分析师本能地做多轮检查。AI 不会,除非你告诉它。这并非 bug,而是设计如此:大语言模型被训练来产出连贯、有帮助的回复,而非默认标记自己的不确定性。第一轮永远是假设。没有另一轮专门寻找错误的检查,你就是在把草稿当作最终答案。

修复方案——将最终验证轮次(Verification Pass)内置到每一次分析中

验证意味着要求 AI 审计自己的工作,专门寻找你现在知道要预期的那类错误:

VERIFICATION PASS

审查以上分析的以下方面:

  1. 引文验证 — 确认每条引文在源数据中以逐字形式存在;标记转述、合并或未找到的引文
  2. 矛盾检查 — 对每位参与者,检查不同时间点的陈述是否存在冲突;寻找:陈述的偏好 vs. 描述的行为、信心之后跟着缓词、访谈后期软化的强烈观点
  3. 信心评估 — 标记任何基于有限证据的发现;注明立场不明确或混合的参与者

输出包含标记项和修订建议的验证摘要。

当你推动任何大语言模型审查自己的标注和解读时,它实际上找到错误——有些是重大失误,有些是对某人所说内容的微小夸大,被归入了一个不完全匹配的模式中。但不管哪种,我们只应该在经过第二轮(或第三轮)审查的证据上做出重大、有风险的产品决策。这一步为你的分析增加几分钟时间,但如果你已经依赖 AI 的分析结果,它可能真的为你节省数百万美元的投向错误产品变更的投资。


第六章:立即检验你的上一次 AI 分析

你学到的四大失败模式及其修复方案:

  1. 虚构证据 → 引文选择规则 + 确认它们真实存在
  2. 虚假或泛化洞察 → 足以指导解读的上下文加载
  3. 无法指导决策的"信号" → 带真实示例的少样本校准
  4. 被掩盖的矛盾 → 一个能捕捉之前轮次遗漏之处的验证轮次

即使你只在下一个项目中应用其中一项,也会比现在得到更好的结果。但不要等到下一个项目——现在就选一个你已经用 AI 做过的分析:一份访谈摘要、问卷模式分析,任何你让 AI 找主题或拉引文的内容。对它运行失败模式四的验证轮次。

如果你和大多数人一样,你会找到至少一条不存在的引文、一个被埋葬的矛盾、或一个仅基于单个回复的"模式"。这不是失败——这是系统在起作用。现在你知道了在它进入演示文稿之前需要修复什么。

验证,是让你永远心存疑虑的 AI 输出,和你可以完全站到背后的洞察之间的分水岭。

AI 分析最大的问题在于,输出总是看起来信心满满——整洁的主题、精炼的引文、准备好复制到 Gamma 做幻灯片美化的整洁摘要。输出中没有任何东西暗示"再检查我一次"。

这正是这些失败模式之所以危险的原因。不是因为 AI 不擅长分析——它正变得非常出色——而是因为这些错误在你看到漂亮输出时是不可见的。它们直到三个月后决策崩盘,或者直到你意识到某笔重大投资背后的"客户证据"其实满是漏洞时才暴露出来。

本文中的修复不是关于放慢速度,而是关于让 AI 分析成为你真正可以辩护的东西:你愿意为之押上声誉的证据、你不需要事后撤回的建议。现在花十五分钟验证,还是六个月后才发现建错了东西——这就是代价。


原文:Caitlin Sullivan for Lenny's Newsletter | 阅读原文