Zapier 的 Mike Knoop 发起 ARC Prize，为 AGI 激发全新思路 | Training Data

cover Sequoia Capital · 2024-07-02🎬 在 YouTube 观看原视频 →>

摘要

Mike Knoop 是 Zapier 的联合创始人，近期他与 François Chollet 共同发起并赞助了 ARC Prize——一个旨在衡量机器"真正智能学习"能力的独特 AI 基准测试。本期对话从 Zapier 的 AI 实践切入：Zapier 已成为全球最大的自动化 AI 平台之一，月均 AI 任务量即将突破 1000 万次。Mike 分享了 Zapier 内部如何通过 AI 实现 100 倍的劳动生产率提升——从每天人工制作 10 个 Zap 模板，到每人每天审核 1000 个 AI 生成的模板。在 ARC Prize 部分，Mike 阐述了 François Chollet 对 AGI 的独特定义——"效率优先地获取新技能的能力"——以及为何当前的大语言模型范式从根本上无法实现这一目标。ARC 基准自 2019 年以来一直未被攻克，当前最佳成绩仅为 39%（目标为 85%）。竞赛设置了无互联网访问和有限算力（单块 P100 GPU/12 小时）的约束，迫使参赛者追求效率优先的全新方法。

正文

一、Zapier：从自动化平台到 AI 先锋

Zapier 是一个工作流自动化平台，支持 6000 多种集成——从 Salesforce 到 Gmail。其独特之处在于，绝大多数用户并非技术人员或程序员，而是寻求"让软件替自己工作"的非技术用户。Mike 指出，这与 AI 的承诺完全一致。

Mike 自称从大学时代就是"AI 好奇者"。GPT-3 论文发布时，他在 Zapier 全公司进行了分享。但真正的转折点出现在 2022 年 1 月：

"Chain of Thought（思维链）论文的发布让我大吃一惊。我以为自己已经预判了 AI 语言模型能做到的一切，但'让我们一步步思考'这个技巧——将语言模型用作推理工具而非单纯的补全引擎——让我看到了全新的可能性。"

这篇论文促使 Mike 放弃了管理整个产品工程团队的职责，重新回到个人贡献者角色，与联合创始人 Bryan 一起在公司内部担任"AI 研究员"。

二、100 倍效率提升的实战案例

Mike 分享了 Zapier 内部最令他自豪的 AI 应用案例——Zap 模板的自动生成。

背景：Zap 模板是帮助用户了解 Zapier 功能并快速上手的使用"配方"，需要兼具创意（激发用户灵感）和技术（精确的字段映射）。历史上全部由人工制作，外包人员每天只能制作约 10 个。而团队手上有数百万个等待构建的模板。

AI 方案：一位来自合作伙伴营销团队、具有自由撰稿背景的员工，利用 OpenAI 构建了一套自动化系统——每当有新集成上线，系统自动识别最有价值的模板方向，生成创意用例描述，并完成精确的字段映射。

核心转换：将人类从"执行循环"（Do Loop）移至"审核循环"（Review Loop）。审核者只需在电子表格中标注"好/坏"——由于生成成本极低，坏的结果直接丢弃，重新生成即可。

成果：产能从每人每天 10 个提升到 1000 个——100 倍的劳动效率提升。

Mike 从中总结的经验是：寻找组织中存在的大量重复性人工工作，将人类从"执行者"变为"审核者"——在当前技术成熟度下，这仍然是非常有效的部署策略。

三、Zapier 的 AI 规模

在业务层面，Zapier 的 AI 应用正在快速扩展：
- 超过一半的员工每天都在日常工作中使用 AI。
- AI 任务月运行量即将达到 1000 万次。
- Mike 认为 Zapier 可能是"全球最大的自动化 AI 平台"——很多人在构建需要人在回路中的 Agent 系统，而 Zapier 的 1000 万月均 AI 任务已经是世界上最大规模的 AI 自主运行实例。

四、ARC Prize 的起源：为什么现有 AI 不是 AGI？

Mike 的"AI 好奇心"驱动他探索一个根本问题：我们是否在通往 AGI 的正确道路上？

他的结论是"不"。转折点来自于重新审视 François Chollet 的 ARC（Abstraction and Reasoning Corpus）基准测试——这个自 2019 年以来一直未被攻克的评估，不仅没有像其他 AI 基准那样快速饱和，反而呈现出性能提升减速的趋势。

Mike 对比了两种流行的 AGI 定义：

主流定义（由 OpenAI 和微软协议推广）：AGI 是"能够完成人类大部分有经济价值工作的系统"。
Mike 的评价：这是一个不错的目标，但"它更多反映了当今大多数人类在做什么工作，而非 AGI 的本质"。
Chollet 定义：AGI 是"以效率优先的方式获取新技能的能力"。
这才是 ARC 基准测试真正衡量的维度。

关键思想实验：我们已经拥有能击败人类围棋冠军、国际象棋冠军、甚至外交游戏（Diplomacy）冠军的 AI 系统。但你无法将任何一个为特定游戏训练的 AI，简单地通过喂入新数据来让它击败人类于另一个不同游戏。每次都需要从零开始，重新设计算法、架构和新训练数据。这与人类的学习方式形成鲜明对比——教你一个新游戏，一小时内你就能上手。

"这恰恰定义了什么是一般智能（General Intelligence）：快速高效地获取新技能，以完成你从未遇到过的新颖任务。这正是 ARC 试图衡量的。"

五、ARC Prize 的竞赛规则与设计哲学

ARC 基准的独特之处：
- 抗记忆性：每个任务都是完全新颖的，且有未公开的私人测试集。
- 当前最佳成绩：39%（录制时），目标为 85%。
- 核心知识先验：目标导向性、对象性、对称性、旋转等——这些是人类幼年早期就涌现的认知基础。
- 竞赛约束：
- 无互联网访问（禁止使用 GPT-4、Claude 等闭源模型 API）
- 算力限制：单块 P100 GPU，最多 12 小时

这些规则刻意将参赛者推向"效率优先"的方向——如果不加限制，你可以简单地用无限算力来定义 AGI。ARC Prize 的目标是激励一种全新的思路，一种不需要海量数据和算力的智能范式。

六、AI 安全的实证主义立场

在对话开篇，Mike 对 AI 安全讨论表达了独特的看法：

"现在流传着一种关于超级智能导致灾难性后果的神秘叙事——它是纯理论驱动的，缺乏实证基础。我认为制定有效政策的唯一途径是：看看系统实际能做什么、不能做什么，然后基于此进行监管和决策。其他任何做法都像是在'过早地切断通往美好未来之路'。"

这一立场与 ARC Prize 的精神一致——通过实证基准来推动对 AI 能力的真实理解，而非仅凭理论推演。

ARC Prize 代表着 AI 领域一个重要的反潮流声音：在所有人都在追逐更大的模型和更多的算力时，它提醒我们重新审视"智能"的本质定义，并激励全新的技术路径。