Zapier 的 Mike Knoop 发起 ARC Prize,为 AGI 激发全新思路 | Training Data

cover>

摘要

Mike Knoop 是 Zapier 的联合创始人,近期他与 François Chollet 共同发起并赞助了 ARC Prize——一个旨在衡量机器"真正智能学习"能力的独特 AI 基准测试。本期对话从 Zapier 的 AI 实践切入:Zapier 已成为全球最大的自动化 AI 平台之一,月均 AI 任务量即将突破 1000 万次。Mike 分享了 Zapier 内部如何通过 AI 实现 100 倍的劳动生产率提升——从每天人工制作 10 个 Zap 模板,到每人每天审核 1000 个 AI 生成的模板。在 ARC Prize 部分,Mike 阐述了 François Chollet 对 AGI 的独特定义——"效率优先地获取新技能的能力"——以及为何当前的大语言模型范式从根本上无法实现这一目标。ARC 基准自 2019 年以来一直未被攻克,当前最佳成绩仅为 39%(目标为 85%)。竞赛设置了无互联网访问和有限算力(单块 P100 GPU/12 小时)的约束,迫使参赛者追求效率优先的全新方法。

正文

一、Zapier:从自动化平台到 AI 先锋

Zapier 是一个工作流自动化平台,支持 6000 多种集成——从 Salesforce 到 Gmail。其独特之处在于,绝大多数用户并非技术人员或程序员,而是寻求"让软件替自己工作"的非技术用户。Mike 指出,这与 AI 的承诺完全一致。

Mike 自称从大学时代就是"AI 好奇者"。GPT-3 论文发布时,他在 Zapier 全公司进行了分享。但真正的转折点出现在 2022 年 1 月:

"Chain of Thought(思维链)论文的发布让我大吃一惊。我以为自己已经预判了 AI 语言模型能做到的一切,但'让我们一步步思考'这个技巧——将语言模型用作推理工具而非单纯的补全引擎——让我看到了全新的可能性。"

这篇论文促使 Mike 放弃了管理整个产品工程团队的职责,重新回到个人贡献者角色,与联合创始人 Bryan 一起在公司内部担任"AI 研究员"。

二、100 倍效率提升的实战案例

Mike 分享了 Zapier 内部最令他自豪的 AI 应用案例——Zap 模板的自动生成。

背景:Zap 模板是帮助用户了解 Zapier 功能并快速上手的使用"配方",需要兼具创意(激发用户灵感)和技术(精确的字段映射)。历史上全部由人工制作,外包人员每天只能制作约 10 个。而团队手上有数百万个等待构建的模板。

AI 方案:一位来自合作伙伴营销团队、具有自由撰稿背景的员工,利用 OpenAI 构建了一套自动化系统——每当有新集成上线,系统自动识别最有价值的模板方向,生成创意用例描述,并完成精确的字段映射。

核心转换:将人类从"执行循环"(Do Loop)移至"审核循环"(Review Loop)。审核者只需在电子表格中标注"好/坏"——由于生成成本极低,坏的结果直接丢弃,重新生成即可。

成果:产能从每人每天 10 个提升到 1000 个——100 倍的劳动效率提升。

Mike 从中总结的经验是:寻找组织中存在的大量重复性人工工作,将人类从"执行者"变为"审核者"——在当前技术成熟度下,这仍然是非常有效的部署策略。

三、Zapier 的 AI 规模

在业务层面,Zapier 的 AI 应用正在快速扩展:
- 超过一半的员工每天都在日常工作中使用 AI。
- AI 任务月运行量即将达到 1000 万次
- Mike 认为 Zapier 可能是"全球最大的自动化 AI 平台"——很多人在构建需要人在回路中的 Agent 系统,而 Zapier 的 1000 万月均 AI 任务已经是世界上最大规模的 AI 自主运行实例。

四、ARC Prize 的起源:为什么现有 AI 不是 AGI?

Mike 的"AI 好奇心"驱动他探索一个根本问题:我们是否在通往 AGI 的正确道路上?

他的结论是"不"。转折点来自于重新审视 François Chollet 的 ARC(Abstraction and Reasoning Corpus)基准测试——这个自 2019 年以来一直未被攻克的评估,不仅没有像其他 AI 基准那样快速饱和,反而呈现出性能提升减速的趋势。

Mike 对比了两种流行的 AGI 定义:

  1. 主流定义(由 OpenAI 和微软协议推广):AGI 是"能够完成人类大部分有经济价值工作的系统"。
  2. Mike 的评价:这是一个不错的目标,但"它更多反映了当今大多数人类在做什么工作,而非 AGI 的本质"。

  3. Chollet 定义:AGI 是"以效率优先的方式获取新技能的能力"。

  4. 这才是 ARC 基准测试真正衡量的维度。

关键思想实验:我们已经拥有能击败人类围棋冠军、国际象棋冠军、甚至外交游戏(Diplomacy)冠军的 AI 系统。但你无法将任何一个为特定游戏训练的 AI,简单地通过喂入新数据来让它击败人类于另一个不同游戏。每次都需要从零开始,重新设计算法、架构和新训练数据。这与人类的学习方式形成鲜明对比——教你一个新游戏,一小时内你就能上手。

"这恰恰定义了什么是一般智能(General Intelligence):快速高效地获取新技能,以完成你从未遇到过的新颖任务。这正是 ARC 试图衡量的。"

五、ARC Prize 的竞赛规则与设计哲学

ARC 基准的独特之处:
- 抗记忆性:每个任务都是完全新颖的,且有未公开的私人测试集。
- 当前最佳成绩:39%(录制时),目标为 85%。
- 核心知识先验:目标导向性、对象性、对称性、旋转等——这些是人类幼年早期就涌现的认知基础。
- 竞赛约束
- 无互联网访问(禁止使用 GPT-4、Claude 等闭源模型 API)
- 算力限制:单块 P100 GPU,最多 12 小时

这些规则刻意将参赛者推向"效率优先"的方向——如果不加限制,你可以简单地用无限算力来定义 AGI。ARC Prize 的目标是激励一种全新的思路,一种不需要海量数据和算力的智能范式。

六、AI 安全的实证主义立场

在对话开篇,Mike 对 AI 安全讨论表达了独特的看法:

"现在流传着一种关于超级智能导致灾难性后果的神秘叙事——它是纯理论驱动的,缺乏实证基础。我认为制定有效政策的唯一途径是:看看系统实际能做什么、不能做什么,然后基于此进行监管和决策。其他任何做法都像是在'过早地切断通往美好未来之路'。"

这一立场与 ARC Prize 的精神一致——通过实证基准来推动对 AI 能力的真实理解,而非仅凭理论推演。


ARC Prize 代表着 AI 领域一个重要的反潮流声音:在所有人都在追逐更大的模型和更多的算力时,它提醒我们重新审视"智能"的本质定义,并激励全新的技术路径。