Block CTO Dhanji Prasanna：用开源代理 Goose 构建 AI 优先的企业

cover Sequoia Capital · 2025-09-30🎬 在 YouTube 观看原视频 →>

摘要

Block（前身 Square）的 CTO Dhanji Prasanna 分享了一家全球支付科技巨头如何系统性地转型为 AI 优先企业。他的"AI 宣言"旅程始于一封写给 Jack Dorsey（Block 创始人/CEO）的长邮件："我们真的需要投资 AI，我们需要集中化推进，我们需要把整个公司转型。"Jack 的回应是 100% 同意——飞到了悉尼与 Dhanji 深谈了两天。

这场转型的核心武器是 Goose——Block 开源的一个通用 AI 代理（General-Purpose AI Agent）。Goose 基于模型上下文协议（Model Context Protocol, MCP）构建，Block 是 MCP 最早的贡献者之一。它能够连接 Google Docs、Gmail、Square 支付、Snowflake、Looker 等所有内部系统，并自主编排跨系统的工作流。令人震惊的是，Goose 代码库中绝大部分新代码是由 Goose 自己编写的——"每次发布都计划 100% 从头重写自己"。

Dhanji 的核心哲学与直觉相反：不要过度工程化（Don't Overengineer It）。"我们让 Goose 从做事中学习。我们发现 Goose 比你试图让工具变得'Goose 友好'更有能力——它会以你想不到的方式弄明白事情，而且比你更快。"Block 内部追踪的一个核心指标是"手工工作量节省小时数"——从零开始，到年底预计达到 25%。

Dhanji 描绘了一个"群体智能（Swarm Intelligence）"的未来：不是单个代理做副驾驶，而是 50 到 100 个 Goose 实例协同工作数小时，构建像 Cash App 一样复杂的应用。他设想的竞争范式不是"开源模型 X 是否像闭源模型 Y 一样好"，而是"我能否利用开源模型——因为它们足够小、足够便宜——运行 50、60、500、1,000 个副本，使其累积能力超越任何单个大语言模型。"

正文

AI 之问：朋友还是敌人？

当被问及 AI 对 Block 是朋友还是敌人时，Dhanji 给出了双层次回答。第一层是哲学性的：如同核能——核医学救命，核能可以革命性，但造炸弹就是灾难。"AI 非常类似——它能否带来好处取决于谁在开发它以及把它用于什么目的。"

第二层是针对 Block 的具体判断："我一直把 Block 看作一家科技公司，而不是金融服务公司。我们一直是最早拥抱任何新技术的公司，然后弄清楚如何最好地服务客户。"他不把 AI 看作威胁——"只有当我们睡在方向盘上、不做我们本该做的事情时才是一种威胁。"从最早的基于卡片滑过速度供电的读卡器，到区块链投入，再到如今的 AI ——Block 一直站在技术浪潮的潮头。

Dhanji 与 Block 的渊源远比外界知道的长——他的第一次代码提交可以追溯到 2011 年，比大部分现任高管加入的时间还早。2024 年他正式担任 CTO 后，立即开始系统性推动 AI 转型。

从 GM 结构到功能组织：组织重设的艺术

Block 的 AI 转型伴随着一次重大组织架构变革。Dhanji 回忆道：最初他投资了 8 个不同的 AI 特殊项目，"两到五个工程师做八个项目"。其中一些来自他的创意，一些来自已有的黑客周想法。

关键转变是逐步瓦解了之前行之有效的 GM（总经理）结构——这个曾经将 Square、Cash App 和 Tidal 的团队分开的结构。"这个结构在当时解决了很多问题，但现在它成了障碍，因为它把大量价值锁在各自的孤岛里。"Dhanji 将所有产品团队的平台能力集中化，加上之前独立运作的平台团队，形成了"一个真正强大的跳板"。

他承认这与几年前的逻辑完全相反——他自己就曾是 Cash App 的首任工程主管，亲手推动了 GM 结构的建立。"当时 Cash App 需要自主权和专注，不要被 Square 的使命混淆。在那个时代你需要深度和单一焦点。而在这个 AI 浪潮中，地震级别的变化每周都在发生，集中化和功能性组织是正确的方式。"Jack 完全同意这一判断。

Goose：一个给 LLM 装上四肢的开源代理

Goose 的诞生来自于 Dhanji 上任后"翻后柜子"找工程师们秘密项目的那一天。工程师 Brad Axen 已经有了一个完整的命题：代理是 AI 发挥实际效用的未来。Dhanji 给他圈了一个 6-7 人的团队，他们的成果远超预期。

Goose 本质上是一个"工具调用循环（Tool-Use Loop）"，但 Dhanji 用更直观的比喻："如果你把 LLM 想成是罐子里的一个大脑——除了聊天什么也做不了——Goose 就是给它装上四肢去现实世界执行任务。"它能连接 Gmail、Google Docs、Square 支付、Snowflake、Looker、Tableau 等所有系统，并自主编排跨系统工作流。"你写一个简单的 prompt：'给我做一个 Q3 的市场营销报告'——然后它就去 Snowflake 拉数据，可能在 Looker 或 Tableau 里查看，用已知的编程工具建一堆图表，最后输出成 PDF 或 Google Doc，甚至可以帮你发邮件。"

最令人震惊的实例：Jack Dorsey 用 Goose 构建了 BitChat 的第一版——一个完全去中心化、通过蓝牙运行的社交聊天应用。而非技术人员的用法更加颠覆想象：销售人员在用 Goose 给自己写软件仪表盘，财务人员用 Goose 建报告工具。"我们从来没有预料到这个。"

更让人不安的是：一位 Goose 团队成员让 Goose 监控他的所有通讯——包括 Slack、Google Meet 通话——然后 Goose 会自动介入。他和同事讨论一个新功能，几个小时后发现 Goose 已经尝试开发了这个功能并提交了一个 PR。如果他收到"要迟到了"的消息，Goose 会自动重新安排日程。"你需要有足够的胆量来接受这些——但这就是 AI 代理已经能做到的事情。"

不要过度工程化

Dhanji 反复强调一个反直觉的设计哲学：不要过度工程化。"我们让 Goose 从做事中学习。我们发现让 Goose 自己去摸索比你去想'如何让某个工具对 Goose 友好'更有效——它总是会以你想不到的方式弄明白，而且比你更快。"

这背后是一个实际的考量：LLM 的能力进化得太快了。"即使我们今天发现某些工程脚手架能让 Goose 在某个工具上更有效，下一个 LLM 版本可能直接就把它碾压了——模型自己就能做到了。你必须要停止像工程师一样思考。"他坦言这是他最难学会的一课，"你开始得更像一个数据科学家一样思考。"

Goose 还内置了一个叫做"食谱（Recipes）"的功能——如果用户尝试某个工作流并且非常喜欢，可以把它烘焙成脚本或食谱，然后分享给团队成员。

安全性：阶梯式自主权

"早期用户最担心的是 Goose 会不会失控。"Dhanji 承认这种担忧远大于实际风险——"LLM 在工具使用上天生就相当谨慎"。但 Goose 设计了一套阶梯式安全结构：

首先是"让我审查所有操作模式"——任何破坏性操作都需要用户确认。当用户建立信任后可以切换到完全自主模式。即使在自主模式下，Goose 在做破坏性操作之前通常会主动提醒。用户可以在任何时候中断它并说"不要那样做，换个方法"。

最关键的安全设计是：Goose 以用户的身份运行。"它不是一头野机器人跑进数据中心为所欲为——它遵循与该用户相同的访问控制。所以在销售岗位的人不可能获取财务信息，反之亦然。"

此外，Block 还构建了"无头 Goose（Headless Goose）"——它在 CI 管道中运行，每次 InfoSec 提交漏洞工单后，自动尝试修复。"但所有代码都遵循非常严格的审计和审查流程——人类必须阅读一切并确认修复正确才能进入生产环境。"

群体智能与开源模型的未来

Dhanji 对模型竞争格局有着独到的见解。"当前的方式是：一个模型，几个模型，一个代理在你的笔记本上做副驾驶式的编码——Goose 也是这么运作的。但我认为解锁编码能力的未来是群体智能（Swarm Intelligence）。"

"不是一个代理与你互动，而是如何让 50 个代理实例、或者 100 个——如果叫'geese'的话——一起去构建相当复杂的应用。现在我们的核心工具调用循环平均每次轮次两到三分钟就结束。但如果它能与其他 50 个 Goose 实例协同工作数小时呢？它能不能构建像 Cash App 规模那么大的复杂应用？"

这个思考导向了一个对开源 vs. 闭源争论的独特框架："竞争可能不再是'开源模型 X 是否像闭源模型 Y 一样好'，而是'我能否利用开源模型 X——因为它足够小、足够便宜——同时运行 50、60、500、1,000 个副本，使其累积能力超越任何单个大语言模型'。"

他提出"无限数量的蚂蚁能否建造宇宙飞船"的哲学问题——答案可能是分层群体架构：一些大型强模型做规划和重新整合，把问题分解成极小的纳米服务，由较简单模型并行处理。

Block 本身不开发 LLM，但开发面向客户服务和风控的专门 SLM（小型语言模型），同时正在进行语音到语音模型（Speech-to-Speech Model）的前沿研究，并计划开源所有发现。"所有模型都应该开源——核心基础技术应该像互联网被构想的那样成为一个公用事业。"

远程组织与速度之谜

作为一位从悉尼远程管理工程的 CTO，Dhanji 坦诚远程工作不完美。"我不会坐在这里说远程在各方面都完美。确实有速度上的折损，还有偶然性的损失——饮水机边的对话确实能加速工作。"

但他认为收益远超成本。"有一些员工，他们是各自领域的灯塔——如果不能在瑞典或悉尼雇佣他们，他们永远不会为我们工作。从 Cash App 最早的时候，分布式工作就在我们的 DNA 里。我们在澳大利亚开设工程办公室差不多有十年了——而且从未后悔。"Block 能够在新兴市场留任顶尖工程师六到八年，避免了硅谷级别的竞争。

氛围编程时代的到来

"Goose 基本上开创了氛围编程。至少我们是其中非常早期的实践者。"Dhanji 自己每天写代码——全部通过 Goose 或其他 AI 代理完成。"我极少手动写代码。我可能做点编辑或者注释掉一些东西来看效果。我们已经身处氛围编程时代。"

对于工程师是否该手动写代码的争论，Dhanji 的观点很实在：如果你在做真正需要极致性能和安全性的东西（支付加密等），"一个经验丰富的开发人员写的紧凑高效代码，LLM 还无法匹敌——在一些非常狭窄的案例中"。但即使在这些场景下，"开发人员更好的做法仍然是用 LLM 先出代码，然后看哪里可以改进。就像雕塑家或写短篇小说——有一个骨架来工作是比坐下来从零开始更有生产力的。"

"LLM 写出高性能代码的能力超出很多人预期——你只需要让它们以特定的方式写。它们真正失败的地方是理解专有 API——因为这些不在训练集中，特别是非常复杂的专有框架。"

问答精选

AI 的真实影响数据：手工工作量节省小时数从 0% 起步，预计年底达到 25%。工程师每周报告通过 Goose 节省 8 到 10 小时。"但 LLM 的真正效用阶段还在前方——我们刚刚开始看到它的一些表现。"
开源 Goose 的逻辑："我们有两个选择：让 3,000 多名工程师的社区开发某样东西，或者让 3 万多名工程师的更广泛社区来审视我们的工作并贡献想法。作为核心价值观，这深深根植于我们的 DNA 中。"
最大的愿望："我总希望能更快。有些工具在本地跑起来的那种响应速度真的让人振奋——我想要整个团队、整个项目、整个组织规模的倡议都拥有那种速度。这些工具有史以来第一次给了我们打破摩擦的可能性。"
对开源模型的态度："最近 Quen 令我印象深刻——它不仅超快，而且工具使用能力真的很强，发展速度也极快。我们首选的将是所有模型开源和开放权重——核心基础技术应该像互联网一样成为一个公用事业。"