AI离替代产品经理还有多远？

Lennys.Newsletter · 2025-07-01

👋 大家好，莱尼（Lenny）来啦！欢迎阅读本月 ✨ 免费版 ✨ 莱尼通讯（Lenny's Newsletter）。每周我都会回答读者关于产品构建、增长驱动和职业加速的问题。如果你还没订阅，以下是本月错过的内容：

订阅以获取这些文章以及每篇文章。更多内容：莱尼通讯精选 | 招聘你的下一位产品负责人 | 播客 | Lennybot | 周边商品**

为了开发一套全面的基准来评估 AI 替代产品经理（Product Manager）的进度，我与全职提示工程师（过往合作者）迈克·泰勒（Mike Taylor）合作撰写了一篇文章，这篇文章一定会让你大开眼界。我很期待在评论区看到大家的反应。

AI 行业发展迅猛，这导致人们对 AI 到底擅长什么感到非常困惑。OpenAI、Anthropic 以及所有其他 AI 公司都在不断测试其最新模型的数学、语言和编程能力。然而，这些抽象的基准测试并不能告诉我们 AI 现在或不久的将来能够替代你工作中多少部分——而这才是我们真正关心的。

更棘手的是，要让模型的回答达到可用水平，专业提示工程（Prompt Engineering）是必不可少的。因此，大多数人低估了 ChatGPT 等工具替代人类工作的接近程度。每当你看到某篇文章或科学论文标题写着"ChatGPT 做不到某某事"，通常是因为他们没有使用最新模型，也没有运用提示工程技术。例如，论文"ChatGPT is fun, but it is not funny"（ChatGPT 有趣但不搞笑）的作者只使用了诸如"请给我讲个笑话！"之类的基础提示词，并且测试的是 GPT-3 而非 GPT-4。当我亲自尝试这个任务，并运用了一些提示原则后，我发现你完全可以——让新版 ChatGPT 讲出好笑的笑话。论文"Language Models are Few-Shot Learners"（语言模型是少样本学习者）表明，提示技术在某些任务上可以带来约 30% 的准确率提升，如果添加多个正确完成任务的示例，整体准确率提升可达 50% 到 60%。

因此，要现实地衡量 AI 模型离替代人类工作有多近——在我们的场景中，是产品经理——我们需要收集 AI 工具似乎难以应对的真实 PM 困难任务示例，使用当前最好的模型，并运用提示工程原则，给模型最好的表现机会。（这是谷歌（Google）最近用来测试 Gemini 1.5 能力的相同方法。）

我是一名专业提示工程师，最近与 O'Reilly 出版社合作出版了一本书，Prompt Engineering for Generative AI（生成式 AI 提示工程），因此我将运用我的提示技能，看看能否让 AI 工具在一系列 PM 任务中击败人类。我们将通过 X/Twitter 上的盲测投票来评估每个任务中谁"赢了"，投票者不知道哪个回答是 AI 的、哪个是人类的。通过这个实验，我们的目标是了解 AI 距离自动化 PM 角色还有多远，以及哪些任务领域最可能首先被替代。

收集困难任务

为了建立哪些任务对 AI 来说是困难的基线，莱尼发起了一次征集，邀请 PM 们提交他们尝试过但未能让 ChatGPT 完成的任务：

我们的计划是从中选取三个任务，看看我能否通过提示让 AI 做得比人类更好。一个任务回答是否比另一个"更好"是主观的，即使在人类之间也是如此。加上 AI 的因素后，有人不喜欢它过于正式的语气、冗长的表达或缺乏个性，而有人则欣赏 AI 的全面性、客观性和结构良好的格式。就本实验而言，我们同时关注人们对答案的评分以及他们对原因的评论。

为了进行公平的测试，我们让人们在不透露哪个是 AI 的情况下，评价哪个任务回答更好。结果令人震惊：

AI 回答在三个任务中有两个击败了人类回答！
70% 到 80% 的人猜中了哪个是 AI 回答，但许多人仍然偏好 AI
仍有改进空间——对提示词的小幅调整就能产生更好的结果

这只是一次小型测试，AI 距离独立担任产品经理还有很长的路要走。但重要的是要记住，现在正是 AI 在任何任务上表现最差的时候——这些模型可能每六个月就会变好一倍。

我们测试 AI 表现的方法

从莱尼社交帖子征集到的初始 PM 困难任务候选列表中，我们选出了三个我们认为对日常工作影响最大的任务：

制定产品策略
定义关键绩效指标（KPI）
估算功能创意的投资回报率（ROI）

我的方法是先看看每个任务的典型人类回答可能是什么样子，然后编写提示词，让 AI 输出类似质量和结构的回答。然后我们在 X 上让人们投票，看两个回答中哪个更好。

提示词在 OpenAI Playground（任何有开发者账户的人都可以使用）中运行。这让我们可以设置自己的系统提示词（即模型应该如何行为的指令），而不是使用 ChatGPT 系统提示词，后者包含大量额外的文字，可能会干扰我们的测试。

实际评估投票由莱尼发布两个答案的截屏来进行，不说明哪个是 AI 的。人们被鼓励投票选择他们认为更好的回答，同时也告诉我们他们认为哪个是 AI 做出的：

我们以盲测方式进行，因为这是评估表现的唯一公平方式。可以把它想象成可口可乐 vs. 百事可乐挑战（Pepsi Challenge）：当百事可乐装在无标记容器中时，人们更喜欢它的味道，但当人们看到罐子上的可口可乐品牌时，他们就更喜欢可口可乐了。鉴于人们对 AI 有如此多的看法，有正面的也有负面的，透露哪个回答是 AI 的可能会扭曲测试结果。（也许是出于自我保护，但当我将 AI 的输出与自己的作品比较时，我觉得它很差，然而当我进行盲测时，人们往往更喜欢 AI。）

寻找训练和评估数据

进行盲测评估最困难的部分是找到人类完成任务的真实示例和结果。当我们在谷歌上搜索这些 PM 任务时，我们大多得到的是关于如何处理任务的博客文章建议，却没有具体的真实世界示例。

一个罕见的例外是由 Exponent（无利益关联；我只是喜欢他们的内容）策划的出色 PM 面试问题数据库，该网站帮助人们准备谷歌（Google）、DoorDash、亚马逊（Amazon）、Airbnb、Spotify 和 Meta 等顶级科技公司的工作面试，并且是斯坦福（Stanford）、耶鲁（Yale）、康奈尔（Cornell）和哥伦比亚（Columbia）等学校的官方面试准备合作伙伴。我们使用 Exponent 上的 PM 答案作为全部三个选定任务的人类回答。我要补充的是，当然可能存在更好的人类回答，但每月有数千名 PM 在面试准备中使用这些答案，因此这是一个强有力的基准。

测试结果

现在让我们进入测试结果。我们将首先展示任务和两个答案（一个是 AI，一个是人类）。然后我们将揭示它们在 X 投票中的表现，并讨论这对今天的 PM 意味着什么。在分享结果之后，我还会分享我使用的提示词供你使用，并解释我采用了哪些技术来获得超越平均水平的结果。

任务 #1：制定产品策略

AI 的困难之处：

关于 AI 最常见的抱怨之一是它无法进行创造性思考，因此在制定策略时是一个糟糕的讨论伙伴。这种观点如此普遍，我甚至看到有人声称他们用 ChatGPT 来决定不做什么，以避免任何过于明显的策略或行动。

这是 AI 的一种聪明用法，但我认为这低估了该技术的能力。大语言模型（LLM）是在互联网（甚至更多）上所有可用文本上训练的，所以你得到的默认答案大约会是互联网的平均水平。但通过更好的提示，你可以做得比平均水平好得多，引导它走向不那么明显的答案。制定策略是莱尼认为将最受 AI 主导的技能，所以让我们看看它今天处于什么水平。

我们测试的真实场景：

假设你是 YouTube Music 的 PM。你明年的策略是什么？

方案 A:

方案 B:

哪个赢了？

首选的方案是 B，即 AI 版本，获得了 55% 的选票（计入平票后）！这是一场势均力敌的较量，但平局对 AI 来说仍然是赢，因为让 AI 开发策略比人类便宜得多、快得多。令人震惊的是，尽管 77% 的人正确猜出方案 B 是 AI 回答，它仍然赢了。人类答案来自 Harshit G 在 Exponent 上的回答。

鉴于产品策略如此……嗯……具有战略性，我原本以为 AI 在这项任务上会落后得更多。对 AI 版本（方案 B）最主要的批评是，它感觉像是一份功能清单，而非一个真正的策略。我预计这是可以在时间推移中修正的：推理能力是一个活跃的研究领域，很可能成为 GPT-5 的下一个重大飞跃。就目前而言，人类在真正具有战略性（而非战术性）方面胜出。

我在提示词上投入了大量精力，让猜测哪个是 AI 变得更难，因为我以为如果人们知道它不是人类做的，他们就会拒绝 AI 的作品。事实并非如此，因为大多数投票给 B 的人知道它是 AI，却仍然选择它作为更好的答案。这对我来说是前所未有的，它说明了很多关于人们对 AI 工具日益增长的熟悉度和接受度。

有时候，使我们的作品人性化的是一些小细节，比如方案 A 中提到了某位著名板球运动员。AI 默认基于最高概率的答案产生平均水平的结果，而人类可以通过概念之间意想不到的关联来带来惊喜和愉悦。为了让你的工作更明显地人性化、更不容易被 AI 替代，将你的小众兴趣和热情融入你的工作似乎会是一个好策略。

需要注意的是，我们在 X 上和在 LinkedIn 上发布的提示词略有不同。在 X 上发布的第一版方案 B 中有几个明显的破绽，我想看看能否通过调整提示词来修正。例如，人类方案 A 有语法错误和一个关于著名板球运动员的小众引用，所以我在提示词中添加了"添加小众引用"和"因忙碌而犯一些小的语法错误"的指令。结果在不同社交网络上的得分确实有所不同，给了 AI 在 LinkedIn 上的优势：59% vs. 38%。如果我们在两个社交平台上运行方案 B 的 v2，AI 会赢得更加压倒性。

任务 #2：定义绩效指标

AI 的困难之处：

我们在社交媒体上收到的很多评论都提到 ChatGPT 在提出绩效指标方面缺乏创造力，公平地说，这是一个多数人类也会搞错的棘手话题。我曾作为增长营销机构老板为 200 多家初创公司工作过，我可以说不到 10% 的公司确信自己在衡量正确的绩效指标。但当你做到这一点时，你可以将整个组织团结在一个单一目标周围，奇迹就会发生——就像 Duolingo 和 CURR（当前用户留存率，Current Users Retention Rate），他们聚焦的一个关键指标。

虽然 ChatGPT 确实可能倾向于给出显而易见的指标（我还没见过它提出像 CURR 这样有创造力的东西），但我有信心我们可以让它更深入地思考不同指标如何相互叠加。关键是将事情按部门拆分，然后再汇总到一个北极星指标（North Star），这是我在这类任务的人类回答中经常看到的方法。

我们测试的真实场景：

DoorDash 最重要的指标是什么？

方案 A:

方案 B:

哪个赢了？

首选的方案是 A，获得了 68% 的选票。这是 AI 版本，70% 的人猜中了。如果将平票计入 AI，它的得分达到 86%！人类答案来自 Anonymous Muskox 在 Exponent 上的回答。

这是 AI 的一次重大胜利，大多数人承认它是更好的答案，尽管他们怀疑这是 AI 做的。识别 AI 的主要方式仍然是它给出了更全面的答案。实际上，我在这个提示词中特意采取了一些措施来大幅减少冗长度，但仍然足以被注意到。然而，对于像这样的短任务，我发现比人类更详细有时反而能得出更好的总体答案。

很多人相当确信 A 是 AI，他们称答案的全面性或啰嗦程度是明显的破绽。如果你想隐藏你的答案是否是 AI 生成的，找到让它停止喋喋不休的方法似乎是关键。

有时人们猜错了哪个是 AI，但他们的批评是对的。我认为如果我们能让 AI 被认为与人类处于同一水平，这本身就是一种胜利，因为 AI 的成本只需几分钱、只需几秒钟就能回答，因此可以大规模扩展，让人类 PM 去做更高价值的工作，或者做必要的调研让我们超越实习生的水平。

我们在所有测试中看到了很多平局，有时是因为受访者认为两者同样好，有时是因为它们同样差。无论同样好还是同样差，平局对 AI 来说都是赢！尤其是考虑到它从现在开始只会越来越好，6 到 12 个月后 AI 完全可能在多项 PM 任务中超越普通人类。我们必须记住，这对 AI 来说是一个非常艰难的测试，因为莱尼的受众充满了经验丰富的 PM，他们很可能对如何完成这项任务有自己的看法。

任务 #3：估算 ROI

AI 的困难之处：

另一个让很多 PM 感到沮丧的 AI 难以完成的任务是产品功能优先级排序。这类任务的困难在于，ChatGPT 没有你拥有的关于你的组织和需要做出的各种权衡的全部上下文。那些"与你的数据对话"的 AI 聊天机器人仍然没有解决这个问题：组织中大多数重要的东西是隐性知识而非显性知识，没有被写下来。

未来，当 AI 工具已经作为墙上的苍蝇参与了你企业中的每一次对话、可以访问你所有的文档、并且能够将所有这些信息全部装入其上下文窗口（它可以纳入提示词的信息量）时，它们在估算 ROI 方面很可能会变得超人般出色。然而，即使没有这些优势，我本来就怀疑 AI 只需一点高级提示就能做得更好。

我们测试的真实场景：

假设你是 Meta 的 PM，即将发布一个新的求职（Jobs）功能。发布将在两周后进行。你如何衡量这个产品在短期和长期的成功？

方案 A:

方案 B:

哪个赢了？

首选的方案是 A，获得了 58% 的选票，这是人类版本。这是一场非常接近的较量，很多人说他们选择 A 只是因为细微的原因。只有 65% 的人正确猜出了哪个是 AI。人类答案来自 Avi G 在 Exponent 上的回答。实际上我修改了它，添加了数字，因为原始人类答案没有提供任何估算，我希望这是一场公平的较量。我怀疑如果只有 AI 一个有数字，AI 就会赢。

这个任务的投票人数少了很多；我猜我是用数学把人们吓跑了！所以我们也在 LinkedIn 上发布了它以获得更多投票。这次我们保持两个版本与在 X 上测试的相同。一个常见的误解是大语言模型数学不好（这是 LLM 早期的一个弱点，现在已经通过思维链（Chain-of-Thought）提示基本解决），所以我觉得我本可以骗过更多人。如果你给 LLM 足够的思考时间，让它们一步一步地解决问题，它们在提供合理估算方面实际上是相当不错的。尽管如此，我们得到了 AI 非常接近的竞赛，并看到了与在其他测试中相同的很多模式。

当我在为客户评估 AI 表现时，经常很明显的是我们没有投入足够的精力来衡量人类表现。对于人类答案是否好，存在分歧，因为它没有关注变现指标。考虑到这个理论任务是为 Meta 设计的，而 Meta 以愿意在开启某个功能/平台的变现之前放弃利润数十年而闻名，我认为可以说人类给出的"赚多少钱"不会是新功能发布的主要指标。然而，很多 PM 不同意，在零利率时代结束、风投资金不再那么泡沫化的今天，这种观点尤其合理。你如何衡量影响取决于你如何衡量策略，这就是为什么这些任务总是有一定的主观性。

在 X 和 LinkedIn 上的评论中，很多人猜其他人会投票给哪个选项，与他们自己的评分分开。这为公开回答的评估增加了另一个有趣的维度：一旦投票偏向某个方向，存在群体思维的风险；如果我们对其他人对 AI 看法的心理模型已经过时，也会存在偏见。我发现人们对 AI 的态度正在迅速变化，之前对 AI 持怀疑态度的客户在几个月后突然全力投入。最好定期进行私密盲测，看看人们对 AI 结果的真实看法。

我看到的另一种很多回答是"两者都不好"。这可能是在莱尼的社交媒体信息流中公开进行测试的结果，许多有抱负的 PM 希望证明自己并引发讨论。下次我做这个测试时，我会给人们一个私下投票的方式，我怀疑这会带来更有趣的结果——甚至可能让 AI 结果获得更多的好感度。

接下来是什么？

在三个任务上进行头对头测试并不是一个全面的评估，所以我们希望将这些基准扩展到更多类型的困难 PM 任务。本节描述了我们建议的实现方法。我们很想听听你们在 Substack 上的此处评论区或社交媒体上的想法，哪些可能是好主意，以及我们可能遗漏了什么，能让结果对你们来说更可信、更可靠。

莱尼曾将产品经理的工作定义为"通过调动团队资源来识别和解决最有影响力的客户问题，从而交付业务影响。"他还定义了一个用于分类 PM 技能的全面框架（见下）。将困难 PM 任务基准与该框架对齐，将帮助我们追踪整个 PM 角色当前有多少百分比是可自动化的。

塑造产品
制定产品策略和愿景
设定目标
创建规格说明
探索与发现（Discovery）
制定路线图
提供产品/设计反馈
交付产品
质量保证
争取预算/资源
解除阻碍
产品上市（GTM）
在出现问题时调整资源/优先级
协调人员
主持会议
向上和向下传达重要信息
协调利益相关者
协调团队
维持团队士气

为了更深入，我们将在每个类别探索多个问题，以获得更多样化和稳健的结果，并使用更多模型（以及可能不同的提示技术）来运行测试。我特别想探索 Claude 3.5 或 Google Gemini 1.5 是否能击败 GPT-4o，以及像 Perplexity 那样让模型访问互联网会如何改变它可以竞争的任务类型。

一个大问题是数据污染（Data Contamination），当 LLM 在来自互联网的新数据上训练时，它们会学到哪些答案是"正确"的，这些数据包括像本文这样记录了常见 LLM 失败并揭示正确答案的帖子。对于更新后的文章，我们将通过不揭示哪个方案是 AI 的、只汇总综合结果来避免评估基准的数据污染。这会让评估基准不那么容易访问（如果我们不揭示正确答案，人们就无法自己运行评估），但希望有研究人员在这方面有好建议。

我们使用的投票机制并不理想。在 X 和 LinkedIn 上发布然后手动统计选票太容易被主观解读，而且花费太多时间，无法更频繁地运行测试。我们需要改变方法论来支持扩展的任务列表。在灵感方面，我们在考虑 LMSYS 如何处理其聊天机器人竞技场，但我们对建议持开放态度。主要区别在于我们还需要收集像 Exponent 那样对问题的真实人类答案，并将它们与 LLM 回答进行比较。

附加内容：我是如何为这些任务创建提示词的

有很多提示工程技术和技术可以用来从 AI 那里获得更好的表现，但对于这次练习，我想开发出更具公式化的方法。以下是我最终确定的流程：

找到一个人类完成该任务的真实示例（例如在 Exponent 上）
将任务复制粘贴到 ChatGPT 中（先转换为 Markdown 会有所帮助）
提示 ChatGPT：
"编一个关于虚拟产品的版本，使用完全相同的结构。"
"让它听起来更真实，避免 AI 腔。"
"为没有见过这个示例的人编写简要说明，以复制其结构和风格。不要给你的说明编号。只返回说明。"
将说明和示例加上一个角色（"作为产品经理……"）来创建提示词模板
生成结果并将格式匹配到人类答案（我将 Markdown 保存在 VSCode 中，然后复制粘贴预览）

提示词模板结构最终如下：

作为{角色}，你的任务是为所提供的产品{任务}。

首先列出假设并在一个单独的标记为"思考"的要点头部分中规划你的答案。然后遵循说明。

## 说明

{说明}

严格按照示例中的结构：

## 示例

{示例}

角色

这些任务中有很多是一种文化和政治的游戏，那种在硅谷（Silicon Valley）高管看来"理所当然"的答案，对于一家消费品公司的老板可能完全陌生。这个提示词的重要部分是要求 AI 扮演"作为一家大型科技公司的产品经理……"，这有助于它获取 PM 会使用的正确文化参考和缩写。如果不进行角色扮演，你得到的只是一个平均水平的回答，可能不符合你的主观口味。

说明

使这个提示词有效的机制之一是"首先列出假设……"的指令。AI 模型（和人类）在花一些时间先规划答案时往往会给出更好的答案，OpenAI 称之为"给模型思考的时间"，也称为"思维链"提示。在我添加到提示词的示例中，我确保添加了假设和澄清问题部分，以便模型能够跟随我的引导，得出更稳健的答案。针对特定任务的说明中还有一些较小的优化，比如在任务 #1 中，我特别要求它添加小众引用和犯小的语法错误。

示例

提示词模板中最有影响力的部分是提供的示例。很难准确描述一个任务应该如何完成，而提供一个示例可以让 AI 捕捉到我们可能无法充分描述的细微差别。添加至少一个示例极大地提高了结果的可靠性，而从多样化场景中添加更多示例进一步有所帮助。尽管太多示例有约束 AI 输出创造力的风险，因为它可能过于严格地遵循示例。此外，收集好的示例需要你投入时间成本，所以我会先尝试添加一个示例，看看是否足够好。

以下是我使用的最终提示词：

任务 #1:

作为一家类似于谷歌、亚马逊、微软或 Facebook 的大型科技公司的产品经理，你的任务是制定产品策略。

首先列出假设并在一个单独的标记为"思考"的要点头部分中规划你的答案。然后遵循说明：

## 说明

在第一个要点中定义策略或产品的总体目标，为后续要点设置上下文。

将每个战略举措单独列为要点，每个要点有一个传达核心行动或目标的独特标题，如"拓展独家原创内容"。

对每个举措，简要说明当前状态以及变革或增强的理由。与行业基准或竞争对手进行比较，以证明策略的相关性。

概述每个举措预期的具体收益或成果，使用要点以确保清晰。确保这些收益与最初提到的总体目标直接相关。

使用专业但引人入胜的语气，聚焦于清晰传达每个策略的目的和预期成果的简洁语言。

融入行业专用术语，使策略听起来知识渊博且信息充分。

每个要点部分以该举措将如何影响业务或产品的总结结束，强调用户参与度、收入或市场地位的改善。

确保整个列表保持连贯流畅，每个部分自然地过渡到下一个，强化你正在构建的战略叙述。

全程使用箭头 -> 展示一个假设如何导致另一个假设。

简洁且真实。

深入思考基于科技行业历史先例实际有效的策略是什么。尽可能引用案例。

包含类似真实用户流程的内容，并解释背后的原因。

做出听起来切实可行的内容。不要只是提供模板化的 <与改进相关的词汇> -> <某种方式与领域相关的词汇>。措辞本身很重要。

不要给每个要点标注"理由"、"预期收益"等，让文字本身说话。

不要在策略末尾包含总结。

保持简洁。

让它更像一个真正的策略，而不是战术清单。

像真人一样口语化，因忙碌和深度思考而犯一些小语法错误，但保持像求职面试中那样的专业性。

添加小众引用，展示你拥有广泛的多元化思维。

## 示例

**明年的策略**

## 思考

- 目标：通过多样化的内容产品和增强的用户体验来提高用户参与度和收入。

- 假设：

- 用户正在寻求更多原创内容和个性化体验。

- 有机会利用现有技术改善内容发现。

- 跨平台整合可以增强用户忠诚度并提高整体满意度。

- 竞争对手正在大量专注于算法驱动的推荐，留下了更多人性化方法的空间。

**明年的策略**

-## 思考

- 目标：通过独特创新的策略提高用户参与度、增加收入并巩固市场地位。

- 假设：

- 用户重视独家内容和个性化体验。

- 需要更好的内容发现工具。

- 跨平台整合增强用户忠诚度。

- 举措必须独特、创新，并提供明确收益。

## 明年的策略

- **拓展独家原创内容**

- 利用与制片厂的现有关系创建"StreamSync Originals"，聚焦于服务不足的类型，如国际剧集、小众纪录片、独立电影。类似于竞争对手的其他原创策略。

- 推出与当前观看趋势或未被触及的受众产生共鸣的系列或电影，例如生态惊悚片/历史小说 → 这可以吸引更广泛的用户群 → 抓住小众受众，提高订阅留存率。

- 为原创内容提供高级（仅限订阅）和广告支持的混合观看选项 → 迎合不同用户偏好鼓励订阅升级和广告收入增长，类似于 Hulu 的双收入模式。

- **通过创新功能增强内容发现**

- 许多用户对选择过多感到不知所措 → 通过"精彩预览"简化发现流程。→ 基于用户行为和当前趋势智能选择 → 像 TikTok 的算法一样提升对不太知名作品的兴趣。

- 将算法推荐与真实用户评论结合并在预览中突出显示 → 建立信任和好奇心 → 像 Spotify 的 Discover Weekly 一样促进平台上更多探索。

- 引入名人策划合集作为常规互动工具，例如勒布朗的休闲追剧播放列表。邀请来自不同领域（如作家、厨师或运动员）的客座策划人，为内容发现增添新鲜感和仪式感，类似于 Tidal 对艺术家策划播放列表的做法。

- **跨平台个性化整合**

- 个性化不仅有助于留住用户，还让他们在所有平台上有宾至如归的感觉。当我在任何平台上玩堡垒之夜（Fortnite）时，体验都是一样的。偏好应该在 StreamSync 和 SmartFrame 等服务之间直观地同步。

- 如果用户在 StreamSync 上喜欢动作电影，这些数据应该以一种细微的方式增强他们在 SmartFrame 上的体验，例如动作主题的背景或配乐，始终允许自定义或退出。他们必须感到自己的偏好被尊重而不是被侵入。

- 用户数据的交叉利用可以为内容创作提供信息 → 调整我们的原创内容以更好地匹配跨平台看到的偏好 → 可以带来更多热门作品，类似于利用数据制作原创节目。就像 Zynga 利用游戏内数据预测下一个热门作品一样。

仅限前五个好的答案

不要使用术语或公司腔调，除非是硅谷文化中普遍存在的东西。

不要用"词+冒号"标注要点，只提供要点本身

任务 #2:

作为一家类似于谷歌、亚马逊、微软或 Facebook 的大型科技公司的产品经理，你的任务是为所提供的产品定义绩效指标。

首先列出假设并在一个单独的标记为"思考"的要点头部分中规划你的答案。然后遵循说明：

## 说明

首先确定你的假设业务的核心服务或产品，并确定与所有利益相关者总体目标一致的最关键指标。这是你的北极星指标（NorthStar metric）。它应该反映影响收入、用户满意度和运营效率的主要成功衡量标准。

接下来，定义输入到北极星指标的主要指标。根据不同的用户群体或你的业务方面将这些指标分类。对于每个类别，列出提供关于表现和有效性的洞察的具体、可衡量的指标。这些指标应该是可操作的，并与增强北极星指标明确相关。

使用清晰、专业的语言描述北极星指标和主要指标。确保指标在逻辑上相互关联，展示主要指标的改善如何直接影响北极星指标。这种结构化方法确保你业务的每个部分都为公司的整体成功和目标做出贡献。

严格按照示例中的结构：

## 示例

**StreamLine 的北极星指标应该是什么？**

StreamLine 理想的北极星指标应该是"每日活跃主播数"，因为这个指标对生态系统的活力至关重要。更多活跃主播意味着更多内容生成和用户参与，进而带来广告和订阅收入的增加。这也确保观众拥有丰富的内容多样性，保持平台的动态性和吸引力。

**为了战略性地驱动我们的北极星指标，我们应该严格跟踪这些主要指标：**

- **主播** - 诸如每日活跃主播数、每个主播的直播会话数、转化率（从登录到开始直播）以及平均直播时长等指标至关重要。

- **观众** - 关键指标包括每日活跃观众数、每次会话平均观看时长、观众互动率（每次会话中的点赞、分享和评论等互动）。

- **广告商** - 活跃推广活动数、每场直播平均展示次数和广告点击率等指标对于监控广告互动和效果至关重要。

任务 #3:

作为一家类似于谷歌、亚马逊、微软或 Facebook 的大型科技公司的产品经理，你的任务是估算新功能的业务影响/价值。

首先列出假设并在一个单独的标记为"思考"的要点头部分中规划你的答案。然后遵循说明：

## 说明

首先确定评估新功能成功的关键指标，聚焦短期和长期影响。按将与功能互动的不同用户类型进行细分。

对于短期，选择反映初始用户认知和采用的指标。这些应该是简单直接、可衡量的统计数据，比如以特定方式与功能互动的用户数量。

包含一个护栏指标（Guardrail Metric），监控可能表明功能实施或接受存在问题的任何潜在负面影响或用户反馈。

对于长期，选择评估持续互动、用户推荐以及与你的功能目标相关的直接结果的指标。这些应该跟踪更深层的使用模式和更显著的影响。

此外，设置另一个长期护栏指标，监控关键的不良结果，关注用户可能停止使用功能或表达不满的原因。

将这些元素组织成清晰、易读的格式，区分不同用户类型并说明每个指标的性质。这将有助于有效传达目标并监控功能的成功。

全程使用费米估算（Fermi Estimation）计算潜在影响。

严格按照示例中的结构：

## 示例

成功指标：当我们推出这个新功能时，我们的直接目标将集中在可见性和参与度上：

_教育者：_

- 将功能融入课程的教育者总数 – 10%

- 使用进度跟踪的教育者总数 – 25%

平台上的 1000 万教育者 x 10%（融入课程）x 25%（使用进度跟踪）= 25 万教育者使用进度跟踪。

_护栏指标：_

- 用户投诉 – 关于功能或内容质量的投诉数量 – 5%

## 长期关注：我们将注意力转向持续使用、推荐和教育成果：

_学生：_

- 每位学生平均完成的课程数 – 10

- 每位学生平均功能互动次数 – 15

平台上的 3 亿学生 x 10%（教育者使用该功能的学生）= 3000 万学生

3000 万学生 x 每位学生完成 10 个课程 = 3 亿课程完成

3000 万学生 x 每位学生 15 次互动 = 4.5 亿次互动

_教育者：_

- 教育者中功能使用的平均频率 – 每月 15 次

- 教育者报告的正面教育影响数量 – 60%

100 万使用该功能的教育者 x 60%（报告正面影响）= 60 万份正面教育影响报告

_护栏指标：_

- 流失率 – 因不满意或不互动而停止使用的用户百分比 – 20%

脚注

关于我们运行的测试的一些进一步细节：

X 不允许你在图片上运行投票，所以我们不得不要求人们评论，然后手动统计选票。
有些人只投票判断是否是 AI；其他人只选择他们的偏好。这就是为什么数字不完全相加。
每当偏好平局时，我将其视为 AI 的胜利，因为人类工作者的成本高出几个数量级。

这并非旨在作为一项科学测试，但结果应该让你思考你是否一直在不公平地评判 AI，也许它比你意识到的走得更远！

感谢迈克！迈克·泰勒（Mike Taylor）是 O'Reilly 出版社 Prompt Engineering for Generative AI 一书的共同作者，并在 Brightpool 构建 AI 产品。此前，他建立了一家 50 人的营销代理公司，服务于 Booking.com、Time Out 和 Monzo 等客户。在 LinkedIn 和 X 上关注他。

祝你有充实而高效的一周 🙏

👀 正在招聘？还是正在寻找新工作？

我正在试点一项产品岗位的白手套招聘服务，每次只与少数精选公司合作。如果你正在招聘高级产品岗位，请在下方申请。

申请加入

如果你自己正在探索新机会，请使用上方相同的按钮注册。如果我们认为合适，我们会从精心挑选的公司发送个性化机会。未经你允许，没有人会获得你的信息，你可以随时退出。

如果你觉得这份通讯有价值，请分享给朋友，如果还没有订阅，也请考虑订阅。有团体折扣、礼品选项和推荐奖励可供选择。

真诚地，

莱尼 👋