AI 工具正在超预期交付：大规模 AI 生产力调查结果

Lennys.Newsletter · 2025-12-23🎬 在 YouTube 观看原视频 →

作者：Lenny Rachitsky & Noam Segal（Figma AI 洞察经理，曾任职于 Zapier、Airbnb、Meta 等）

摘要

Lenny's Newsletter 与 Figma 的 Noam Segal 合作，对 1,750 名科技从业者（产品经理、工程师、设计师、创始人等）进行了迄今为止最大规模的独立 AI 生产力深度调查。核心结论：AI 正在超预期交付。 55% 的受访者表示 AI 超出了他们的预期，近 70% 表示 AI 提升了工作质量。超过一半的受访者每周在最重要任务上至少节省半天时间——这是我们从未见过的生产力提升幅度。其中，创始人从 AI 中获益最大（49% 每周节省 6 小时以上），设计师获益最少（仅 45% 报告正投资回报率）。ChatGPT 在多数角色中占据主导地位，但工程师选择了专业工具（Cursor、Claude Code）。n8n 目前在智能体（Agent）平台领域遥遥领先。然而，令人警醒的是，92.4% 的受访者报告了至少一个显著的负面影响。AI 已经从玩具变成了生产力基础设施，而我们正处在复合型生产力革命的早期阶段。

第一章：全局图景——AI 超预期交付的七个核心发现

关于 AI 对工作的影响，争论从未停止。它真的带来了生产力提升吗？投资回报率（ROI）在哪里？众说纷纭，但一直缺乏数据支撑。

我们决定深入一线寻找答案，通过对 1,750 名受访者的大规模独立调查，揭示了七个核心发现：

1. AI 超预期交付

55% 的受访者表示 AI 已经超出了他们的预期，近 70% 表示 AI 提升了工作的质量。只有 17.7% 报告失望。以任何产品标准衡量，这都是极强的数据。

2. 时间压缩是真实且巨大的

超过一半的受访者表示，AI 让他们在最重要任务上每周至少节省半天时间。 我们从未见过任何工具能带来如此巨大的生产力提升。一位受访者描述 PRD（产品需求文档）"过去需要几天的 PRD，现在不到一小时就能完成"；竞争研究"从数周缩短到几天"；原型设计"过去需要一个月来构建和验证的东西，现在最多一天，有时最多一小时"。

知识工作中的时间压缩率普遍在 3 倍到 10 倍之间。

3. 创始人获益最大

49% 的创始人报告 AI 每周为他们节省超过 6 小时，远高于任何其他角色。近一半（45%）的创始人认为 AI 让他们的工作质量"好得多"。创始人的秘诀在于：他们将 AI 用作思考伙伴而非单纯的产出工具。

4. 设计师获益最少

只有 45% 的设计师报告正的 ROI（而创始人为 78%），31% 表示 AI 低于预期——是创始人比例的三倍。设计工作需要精确性和原创性，而 AI 的"够用就好"可能尤其令人沮丧。

5. 工程师已接受 AI 作为编码伙伴，现在想要它处理无聊的工作

工程师希望 AI 接手文档编写、代码审查（Code Review）和测试编写——这些"无聊但必要"的任务。同时，51% 的工程师认为 AI 提升了代码质量，但 21% 认为质量变差了，这是所有角色中"变差"比例最高的。

6. n8n 主导智能体领域

尽管业界对自主 AI 智能体的讨论热火朝天，但实际采用仍处于萌芽阶段。只有约 25% 的受访者以任何形式使用智能体，仅 14% 是"活跃"用户。但 n8n 在智能体平台中遥遥领先，被提及 219 次，是 Zapier（85 次）的两倍多。

7. 代价同样真实

高达 92.4% 的受访者报告了至少一个显著的负面影响。 平均每人选了 2.2 项抱怨。最突出的问题是：输出内容泛泛（56.2%）、事实不可靠/幻觉（51.9%）、以及花时间审查 AI 输出（37.7%）。这构成了一个生产力悖论：AI 节省了生成内容的时间，但创造了审查内容的新工作。

正如 OpenAI 副总裁 Kevin Weil 所说："你今天使用的 AI 模型，将是你余生中使用的最差的 AI 模型。" 如果 AI 在 2025 年末已经能让大多数人每周节省半天以上，那 2026 年会是什么样？2027 年呢？我们正在见证一场复合型生产力革命的早期阶段。

第二章：职能画像——AI 到底在帮不同角色做什么？

产品经理（PM）：擅长产出，滞后于思考

PM 从 AI 工具中获得最大价值的三个场景是：(1) 撰写 PRD（21.5%）、(2) 创建线框图/原型（19.8%）、(3) 改善沟通——邮件和演示（18.5%）。

原型设计排在第二位，标志着正在发生的角色边界变化。借助 Lovable、v0 等工具，PM 越来越多地从想法直接跳到原型，无需等待设计。

但往下看，一个模式浮现：AI 帮助 PM 生产，但在帮助他们思考方面滞后。 排名靠前的都是产出任务（文档、原型、沟通），而战略和发现工作排在末尾——用户研究（4.7%）、路线图创意（1.1%）。PM 已经掌握了用 AI 完成"最后一公里"——把想法从脑袋里拿出来——但他们仍有巨大机会将 AI 用于上游工作，即搞清楚该构建什么。

设计师：AI 擅长设计周边，像素仍是人类领地

设计师认为 AI 最有帮助的领域是：用户研究综合（22.3%）、内容和文案（17.4%）、设计概念构思（16.5%）。视觉设计仅排第 8 位，仅 3.3%。

AI 在帮助设计师处理设计周边的一切（研究综合、文案、构思），但"推像素"仍然顽固地属于人类工作。与此同时，对比原型设计：PM 将其排在第 2 位（19.8%），而设计师将其排在第 4 位（13.2%）。AI 正在为 PM 解锁其核心工作之外的技能（至少就原型设计而言），而设计师并没有从 AI 做核心工作中看到边际改善收益。

创始人：用 AI 思考，而非仅仅产出

创始人最依赖的三个场景是：生产力/决策支持（32.9%）、产品构思（19.6%）、愿景/战略（19.1%）。

与其他角色不同，创始人使用 AI 来思考，而不仅仅是生产。 排名前三的场景都是战略性的：决策支持、构思、愿景/战略。这与 PM（首要任务是文档和原型）和设计师（研究综合和文案）形成鲜明对比。值得注意的是 #1 类别——"生产力/决策支持"占 32.9%，在整个调查中独一无二。没有其他角色有如此主导的单一用例。创始人将 AI 视为思想伙伴和声板（Sounding Board），而不仅仅是特定交付物的工具。

意外缺失： 财务建模仅占 1.8%，尽管创始人在融资期间离不开电子表格；招聘仅占 1.3%，尽管招聘消耗创始人大量的时间。这些领域感觉像是在等待更好工具的机会。

这种模式可能解释了为什么创始人在整个调查中报告了最高的满意度——他们找到了如何将 AI 用于更高杠杆的战略性工作，而不仅仅是产出任务。

工程师：异常值——AI 只做一件大事

对于工程师来说，AI 只做一件大事：写代码——核心工程任务。而 PM 和设计师则是 AI 帮助他们做支持性工作。

往下看，文档（7.7%）、测试（6.2%）和代码审查（4.3%）——这些是工程师通常不喜欢的"无聊但必要"的任务。正如后续机会数据所显示的，这种情况即将改变。工程师已经接受了 AI 作为编码伙伴；现在他们想要它处理代码写完之后的无聊工作。

另一个值得注意的模式：工程师在调查中报告了最混合的质量结果——51% 说更好但 21% 说更差，是任何角色中"更差"比例最高的。这可能反映了代码对正确性的更高门槛：一份"稍微好一点"的 PRD 初稿是有用的；一段"稍微好一点"但有缺陷的函数则不是。而且，坏代码比坏 PRD 更容易被发现。

特例：工程师是唯一不使用 ChatGPT 作为第一选择的角色

ChatGPT 是大多数角色的 #1 最受欢迎 AI 工具：57.7% 的 PM、49.6% 的设计师和 72.1%（!!!）的创始人使用 ChatGPT 超过任何其他 AI 工具，Claude 在这三个角色中排第二。

但工程师的行为截然不同。 GitHub Copilot 率先进入市场，拥有微软和 GitHub 的分发能力，并内置于全球最流行的代码仓库中。然而它却排在三个后来者之后。工程师正在选择更新（更好）的替代品而非既有产品。

工程师的前三几乎并驾齐驱：Cursor（33.2%）、ChatGPT（30.8%）和 Claude Code（29.0%）——全部在 4 个百分点以内。这个市场尚未整合，切换成本很低。同样值得注意的是：Claude Code（29.0%）超过了 Claude 的对话界面（20.7%）。专用工具正在获胜。

Gemini 仅占 10.6%，但提醒一句：这个领域的格局变化极快。几次强大的模型发布或产品更新就可能在短期内重塑排名。今天的事实可能在六个月内截然不同。

对 PM 而言，Perplexity 的排名出人意料地高，可能得益于其强大的研究能力。Lovable（8.7%）和 Cursor（7.7%）也进入了 PM 的前七名，进一步强化了之前的模式：PM 越来越多地自己构建东西，侵蚀传统上属于设计和工程的工作领域。

第三章：需求缺口——最大的增长机会在哪里？

人们今天使用 AI 的地方与他们想要下一步使用的地方之间的差距，揭示了创始人和初创公司介入并交付新工具和新功能的最大机会。

PM 最大的机会：研究

用户研究显示了所有任务中最大的需求缺口（+27.2 个百分点）。今天只有 4.7% 的人说这是主要的 AI 用例，但近三分之一的人希望它成为主要用例。模式很清晰：PM 已经掌握了如何用 AI 处理产出任务——写 PRD、起草沟通；但他们渴望将 AI 应用于上游工作，即搞清楚该构建什么的混乱工作。

原型设计：爆发性类别

对 PM 来说，"创建线框图/原型"从 19.8%（当前使用）跃升到 44.4%（下一步想要使用），+24.6 个百分点的跃升使其成为最受期待的用例。对设计师来说，原型设计和交互设计也表现出类似的势头（+27.8 个百分点）。这与 Lovable、v0、Replit 和 Figma Make 等工具的兴起一致：人们看到了可能性，想要更多。

工程师：从写代码转向代码之后的工作

写代码目前是工程师最受欢迎的用例（51% 当前），但其需求缺口仅为 +5.6 个百分点。然而，文档（+25.8pp）、代码审查（+24.5pp）和测试编写（+23.5pp）都显示出 AI 工程工具的巨大增长机会。工程师已经接受了 AI 作为编码伙伴；现在他们想要它处理代码写完之后的无聊工作。

创始人：加倍押注 AI 作为思考伙伴

产品构思显示出巨大的需求——从 19.6%（当前使用）跃升到 48.6%（下一步想要使用），+29.0 个百分点的缺口。增长战略和上市规划（+24.7pp）以及市场分析（+24.0pp）紧随其后。

创始人已经在大量使用 AI 提高个人生产力（32.9% 当前），但他们想要向上游移动。他们在寻找一个战略合作者来压力测试想法、探索市场、思考上市策略——AI 作为联合创始人，而不仅仅是助手。

关键洞察：下一波需要更好的协作工作流

基于这些报告的缺口，下一波 AI 采用需要的不仅仅是更好的模型，还需要更好的人机协作工作流来处理模糊问题。写 PRD 有明确的输出；竞争研究没有。写代码可以测试；"产品构思"不能。

第四章：产品市场契合度（PMF）——谁是赢家？

我们问了经典的 Sean Ellis PMF 问题："失去哪些 AI 工具会让你非常失望？"83.6% 的人至少说出了一款工具——这本身就标志着 AI 在日常工作流中的深度嵌入。

ChatGPT 主导，但可能只是暂时的

50.2% 的受访者会对失去 ChatGPT 感到非常失望，但这明显低于 60%-75% 的常规使用率。这部分解释了为什么 OpenAI 最近宣布"Code Red"——他们看到 Gemini 和 Claude 开始侵蚀市场份额。AI 领域的切换成本仍然很低。

PM 的工具格局

ChatGPT、Claude 和 Gemini 位居 PM 榜首——它们是如此多功能，非常适合 PM 工作。最有趣的是 Cursor 紧随 Gemini 之后（我们不期望像 Cursor 这样的工程工具在 PM 中如此受欢迎），其次是 Lovable（目前在原型设计市场似乎正在胜出）。

设计师和创始人更偏爱 Claude

设计师（23.3%）和创始人（20.6%）对 Claude 的忠诚度最高。Claude 生态（Claude + Claude Code 合计）达到 27.5% 的整体比例。这对 Anthropic 来说像是一场大胜。

工程师的工具忠诚度截然不同

工程师的 PMF 排行榜与其他人完全不同：ChatGPT（25.3%）、Cursor（20.7%）、Claude Code（17.1%）和 Claude（13.4%）。他们会想念的前四名中有三个是编码专用工具。工程师已经找到——并且想要保留——适合他们需求的专业工具，而不是依赖通用对话界面。Cursor 在工程师中的 20.7% PMF（其他角色为 7% 到 9%）显示了它在编码工作流中的深度嵌入。

粘性分析：谁真正找到了 PMF？

我们可以通过比较两个数字来衡量工具的"粘性"：使用它作为主要工具的人的比例 vs 说会非常失望失去它的人的比例。

如果想念它的人多于目前主要使用它的人，那是强力 PMF 的信号。如果想念它的人少于使用它的人，说明该工具容易被替代。

Granola，AI 会议记录工具，是一个好例子。 在 PM 中，4.9% 说他们会非常失望失去它，但只有约 2% 以它为主要 AI 工具。大约 2.5 倍的比率——几乎所有使用 Granola 的人都会想念它。对比 Gemini，使用率超过忠诚度：使用它的人多于如果它消失会想念它的人。

除通用大语言模型外，我们看到了清晰的类别赢家：

编码： Cursor（20.7% 工程师 PMF）、Claude Code（17.1% 工程师 PMF）
原型设计： Lovable（7.5% PM PMF）、Figma Make（6.8% 设计师 PMF）、v0（4.4% PM PMF）
会议记录： Granola（6.5% 创始人 PMF、4.9% PM PMF）
研究： Perplexity（9.8% 设计师 PMF、6.7% PM PMF）

市场正在分叉

模式表明，AI 工具市场正在分叉：通用大语言模型（ChatGPT、Claude、Gemini）在广度上竞争，而专业工具在工作流集成深度上竞争。

显著缺席： GitHub Copilot 在工程师中 PMF 仅 5.1%（尽管是最早的 AI 编码工具之一）、Notion AI（整体 1.0%）、以及各种图像生成工具（Midjourney 仅 0.4%）。

第五章：AI 生产力的代价——92.4% 的人报告负面影响

生产力的提升是真实的，但代价也是真实的。高达 92.4% 的受访者报告了至少一个 AI 工具带来的负面影响。 平均每人选了 2.2 项抱怨，调查揭示了一种近乎普遍的经历：用一组问题换取另一组问题。

三大核心痛点

输出内容泛泛（56.2%）
事实不可靠/幻觉（51.9%）
花时间管理 AI 输出（37.7%）

前两大问题本质上是同一枚硬币的两面：AI 产生的内容要么太浅（56.2%），要么事实不可靠（51.9%）。每个问题都有超过一半的受访者提到。含义很明确——AI 输出需要大量人工审查和打磨，这直接导致了第三个最常被提到的问题。

生产力悖论：AI 节省了生成内容的时间，但创造了审查内容的新工作。

批判性思维的侵蚀

排在第四位（对 PM 角色来说是第三）的是对 AI 工具侵蚀批判性思维的担忧。无论节省了多少时间，许多受访者担心随着 AI 工具在工作流中普及，他们的长期技能可能面临风险。

设计师受影响最大，创始人最小

63.2% 的设计师提到幻觉问题，62.4% 提到泛泛输出，51.1% 提到时间管理。他们的平均抱怨数也最高（人均 2.74 vs 创始人的 2.03）。这与之前的设计师报告最低质量改进和最小时间节省的发现一致。对于需要精确性和原创性的工作，AI 倾向于"够用就好"可能尤其令人沮丧。

创始人则相反，在几乎所有类别中都显示出最低的抱怨水平。也许是因为他们使用 AI 进行更早期、更具探索性的工作——"方向正确"就足够了。

沉默同样有信息量

只有 8.8% 提到团队协作减少，仅 6.1% 报告工作流中断。担忧 AI 会让团队原子化或打破现有流程的恐惧并没有大规模实现。问题更加平凡：AI 输出需要编辑，AI 有时会编造东西，管理 AI 工具的元工作本身就花费不少时间。

第六章：智能体现状与未来——承诺超前于实践，意义与展望

智能体：雷声大，雨点小

尽管业界对自主工作的 AI 智能体热议不断，但实际采用仍处于起步阶段。 只有约 25% 的受访者以任何形式使用智能体，仅 14% 属于"活跃"用户（使用一个主要智能体工具或多个智能体平台）。近一半（49%）表示有兴趣或计划实施智能体——意图和行动之间的巨大鸿沟既意味着机会，也意味着摩擦。

n8n 主导智能体格局。 当我们问人们使用哪些平台时，n8n 出现了 219 次，是 Zapier（85 次）的两倍多。考虑到 Zapier 更广泛的品牌知名度，这令人惊讶，但 n8n 的开源模式和开发者友好的方法可能引起了这个技术倾向受众的共鸣。Manus（35 次），较新的进入者，已经排名第三，表明市场仍然流动且对新玩家开放。Make 和 Lindy 并列 17 次。有趣的是，Claude Code（16 次）和 Cursor（15 次）也出现了，表明一些受访者正在利用 AI 编码助手中的"智能体"模式。考虑到 Cursor、Anthropic 和 OpenAI 对更智能体化的编码体验的关注，我们可能在 2026 年看到这个用例大幅增长。

创始人引领使用（26.2% 活跃用户），几乎是 PM（12.1%）的两倍，设计师（9.4%）的近三倍。

工作流仍由人类主导

在使用智能体的人中，工作流仍然大量辅助而非自主。近一半（47%）报告 75% 非智能体化，仅 7% 报告大部分或完全智能体化的工作流。即使在最激进的采用者——创始人中——也只有 12.5% 达到 75%+ 智能体化。AI 智能体自主处理完整任务的愿景仍是理想；现实是人类保持控制，AI 在边缘辅助。

阻碍是组织性的，而非技术性的

公司限制阻碍了 8.2% 的潜在用户，在工程（10.1%）和设计（10.5%）领域尤其显著。另有 7.8% 认为目前没有需求。仅 4.8% 完全不熟悉智能体。这表明采用的瓶颈不是认知或能力问题，而是组织准备度和明确的用例。随着政策演变和早期采用者证明具体价值，那 49% 表达兴趣的受访者可能会获得成为用户的机会。

结论：这一切意味着什么

1. AI 已从玩具变成工作主力

数据毫不含糊：55% 说 AI 超出了预期，约四分之三的受访者认为 AI 已经兑现或超越了其承诺。只有 17.7% 报告失望。以任何产品标准衡量，这些都是强劲的数据。

2. 并非所有人都看到同等收益

只有 45% 的设计师报告正 ROI，31% 说 AI 低于预期——是创始人比例的三倍。三种可能：(1) 设计专用 AI 工具尚未达到所需水平；(2) 设计工作需要精确性和原创性，而 AI 还无法提供；(3) 设计师对产出质量有更高标准。答案对于预测 AI 将变革哪些角色、让哪些角色受挫非常重要。

3. 智能体的未来仍是未来

只有 14% 是活跃智能体用户，即使在他们中，工作流仍然 75%+ 由人类主导。"对智能体感兴趣"（49%）和"积极使用智能体"（14%）之间的鸿沟正是下一波采用和下一波产品将出现的地方。

4. 人们不想要 AI 做有趣的部分，他们想要 AI 做讨厌的部分

看看工程师想要如何使用 AI：文档、代码审查、测试。不是困难的部分，而是无聊的部分。也许这就是思考 AI 采用的顶层框架。被改变最多的角色不会是 AI "最聪明"的角色，而是最繁琐的重复劳动最多的角色。跟着苦活累活走，你就能找到 AI 创造最大价值的地方。

5. 当"展示"胜过"告知"，角色边界开始模糊

约 20% 的 PM 示例提到了代码和 Cursor 等工具。PM 在构建原型，直接在产品中测试想法。一位 PM 描述了通过 Linear 和 Cursor"从一个想法到在我们实际产品中测试"只需 10 分钟。

如果展示比文档化更快，PRD 会怎样？传统的 PM/工程师交接会怎样？同样，当设计师能够交付代码时会发生什么？我们几十年来熟知的各种角色，可能在几年内面目全非。

6. 提取最大价值的人有几个共同点

(a) 他们找到了自己的 AI 待办任务。 最高影响力的 AI 用例是角色特定的。PM：PRD 和原型；工程师：代码；创始人：思考伙伴。试图用 AI 做所有事情意味着什么都做不好。选择 AI 可以为你节省最多时间或最大提升产出的任务，深入钻研。

(b) 他们将 AI 视为合作者，而非工具。 人们报告的质量提升不在于打磨，而在于全面性：AI 提出了他们可能忽略的考量。正如一位受访者所说："AI 帮助我从每个可能的角度看待每个情况。因此，当我分析情况或做出决策时，我确信我正在考虑所有观点，没有任何盲点。"将 AI 当作思考伙伴而非文本生成器的人，一致报告了更高的满意度和更好的结果。

(c) 他们在向上游移动。 最大的增长领域不是更快地产出，而是在更早的阶段更好地思考——竞争研究、用户研究综合、产品构思。从"AI 帮我写"到"AI 帮我想清楚该写什么"的转变，将是下一波生产力的来源。

(d) 他们与权衡共存。 92% 的受访者提到了至少一个负面影响：泛泛输出、幻觉、审查时间。但获取最大价值的人并没有等待这些问题被解决。相反，他们构建了考虑到这些的工作流——用 AI 做初稿而非终稿，发布前验证，接受了"够好到可以编辑"胜过"从零完美"。

在 AI 方面获胜的人正将其视为真正的合作者——一个需要上下文、迭代和务实期望但会用复利回报来回报投资的合作者。从你最高杠杆的任务开始，给 AI 它需要的上下文，接受不完美输出作为起点，通过小实验逐步建立信任，而不是大赌注。

那些流畅结合人类判断与 AI 能力的混合型操作者，已经在超越同行。差距只会从这里继续扩大。

附录：调查对象画像

公司规模： 约 40% 在小型公司（个体户到 50 名员工），33% 在中型公司（51 到 999），28% 在企业组织（1,000+）。最大单组是 2 到 50 名员工的初创公司（29.3%），其次是企业（27.8%）和 51 到 500 名员工的成长阶段公司（26.5%）。

经验年限： 这是一个经验丰富的受众。超过一半（53%）有 6 到 15 年经验，近三分之一（33%）有 16 年以上。仅 14% 处于职业生涯早期（0 到 5 年），仅 1.3% 是第一年。工程师尤其资深（51% 有 16+ 年），而 PM 集中在中段（59% 为 6 到 15 年）。经验水平有助于理解调查结果——这些是有足够资历对 AI 对其工作的影响形成真实看法的从业者。

致谢：Noam Segal。你可以在 LinkedIn 和 X 上关注 Noam。

原文：AI tools are overdelivering: results from our large-scale AI productivity survey