Block CTO Dhanji Prasanna:用开源代理 Goose 构建 AI 优先的企业

摘要
Block(前身 Square)的 CTO Dhanji Prasanna 分享了一家全球支付科技巨头如何系统性地转型为 AI 优先企业。他的"AI 宣言"旅程始于一封写给 Jack Dorsey(Block 创始人/CEO)的长邮件:"我们真的需要投资 AI,我们需要集中化推进,我们需要把整个公司转型。"Jack 的回应是 100% 同意——飞到了悉尼与 Dhanji 深谈了两天。
这场转型的核心武器是 Goose——Block 开源的一个通用 AI 代理(General-Purpose AI Agent)。Goose 基于模型上下文协议(Model Context Protocol, MCP)构建,Block 是 MCP 最早的贡献者之一。它能够连接 Google Docs、Gmail、Square 支付、Snowflake、Looker 等所有内部系统,并自主编排跨系统的工作流。令人震惊的是,Goose 代码库中绝大部分新代码是由 Goose 自己编写的——"每次发布都计划 100% 从头重写自己"。
Dhanji 的核心哲学与直觉相反:不要过度工程化(Don't Overengineer It)。"我们让 Goose 从做事中学习。我们发现 Goose 比你试图让工具变得'Goose 友好'更有能力——它会以你想不到的方式弄明白事情,而且比你更快。"Block 内部追踪的一个核心指标是"手工工作量节省小时数"——从零开始,到年底预计达到 25%。
Dhanji 描绘了一个"群体智能(Swarm Intelligence)"的未来:不是单个代理做副驾驶,而是 50 到 100 个 Goose 实例协同工作数小时,构建像 Cash App 一样复杂的应用。他设想的竞争范式不是"开源模型 X 是否像闭源模型 Y 一样好",而是"我能否利用开源模型——因为它们足够小、足够便宜——运行 50、60、500、1,000 个副本,使其累积能力超越任何单个大语言模型。"
正文
AI 之问:朋友还是敌人?
当被问及 AI 对 Block 是朋友还是敌人时,Dhanji 给出了双层次回答。第一层是哲学性的:如同核能——核医学救命,核能可以革命性,但造炸弹就是灾难。"AI 非常类似——它能否带来好处取决于谁在开发它以及把它用于什么目的。"
第二层是针对 Block 的具体判断:"我一直把 Block 看作一家科技公司,而不是金融服务公司。我们一直是最早拥抱任何新技术的公司,然后弄清楚如何最好地服务客户。"他不把 AI 看作威胁——"只有当我们睡在方向盘上、不做我们本该做的事情时才是一种威胁。"从最早的基于卡片滑过速度供电的读卡器,到区块链投入,再到如今的 AI ——Block 一直站在技术浪潮的潮头。
Dhanji 与 Block 的渊源远比外界知道的长——他的第一次代码提交可以追溯到 2011 年,比大部分现任高管加入的时间还早。2024 年他正式担任 CTO 后,立即开始系统性推动 AI 转型。
从 GM 结构到功能组织:组织重设的艺术
Block 的 AI 转型伴随着一次重大组织架构变革。Dhanji 回忆道:最初他投资了 8 个不同的 AI 特殊项目,"两到五个工程师做八个项目"。其中一些来自他的创意,一些来自已有的黑客周想法。
关键转变是逐步瓦解了之前行之有效的 GM(总经理)结构——这个曾经将 Square、Cash App 和 Tidal 的团队分开的结构。"这个结构在当时解决了很多问题,但现在它成了障碍,因为它把大量价值锁在各自的孤岛里。"Dhanji 将所有产品团队的平台能力集中化,加上之前独立运作的平台团队,形成了"一个真正强大的跳板"。
他承认这与几年前的逻辑完全相反——他自己就曾是 Cash App 的首任工程主管,亲手推动了 GM 结构的建立。"当时 Cash App 需要自主权和专注,不要被 Square 的使命混淆。在那个时代你需要深度和单一焦点。而在这个 AI 浪潮中,地震级别的变化每周都在发生,集中化和功能性组织是正确的方式。"Jack 完全同意这一判断。
Goose:一个给 LLM 装上四肢的开源代理
Goose 的诞生来自于 Dhanji 上任后"翻后柜子"找工程师们秘密项目的那一天。工程师 Brad Axen 已经有了一个完整的命题:代理是 AI 发挥实际效用的未来。Dhanji 给他圈了一个 6-7 人的团队,他们的成果远超预期。
Goose 本质上是一个"工具调用循环(Tool-Use Loop)",但 Dhanji 用更直观的比喻:"如果你把 LLM 想成是罐子里的一个大脑——除了聊天什么也做不了——Goose 就是给它装上四肢去现实世界执行任务。"它能连接 Gmail、Google Docs、Square 支付、Snowflake、Looker、Tableau 等所有系统,并自主编排跨系统工作流。"你写一个简单的 prompt:'给我做一个 Q3 的市场营销报告'——然后它就去 Snowflake 拉数据,可能在 Looker 或 Tableau 里查看,用已知的编程工具建一堆图表,最后输出成 PDF 或 Google Doc,甚至可以帮你发邮件。"
最令人震惊的实例:Jack Dorsey 用 Goose 构建了 BitChat 的第一版——一个完全去中心化、通过蓝牙运行的社交聊天应用。而非技术人员的用法更加颠覆想象:销售人员在用 Goose 给自己写软件仪表盘,财务人员用 Goose 建报告工具。"我们从来没有预料到这个。"
更让人不安的是:一位 Goose 团队成员让 Goose 监控他的所有通讯——包括 Slack、Google Meet 通话——然后 Goose 会自动介入。他和同事讨论一个新功能,几个小时后发现 Goose 已经尝试开发了这个功能并提交了一个 PR。如果他收到"要迟到了"的消息,Goose 会自动重新安排日程。"你需要有足够的胆量来接受这些——但这就是 AI 代理已经能做到的事情。"
不要过度工程化
Dhanji 反复强调一个反直觉的设计哲学:不要过度工程化。"我们让 Goose 从做事中学习。我们发现让 Goose 自己去摸索比你去想'如何让某个工具对 Goose 友好'更有效——它总是会以你想不到的方式弄明白,而且比你更快。"
这背后是一个实际的考量:LLM 的能力进化得太快了。"即使我们今天发现某些工程脚手架能让 Goose 在某个工具上更有效,下一个 LLM 版本可能直接就把它碾压了——模型自己就能做到了。你必须要停止像工程师一样思考。"他坦言这是他最难学会的一课,"你开始得更像一个数据科学家一样思考。"
Goose 还内置了一个叫做"食谱(Recipes)"的功能——如果用户尝试某个工作流并且非常喜欢,可以把它烘焙成脚本或食谱,然后分享给团队成员。
安全性:阶梯式自主权
"早期用户最担心的是 Goose 会不会失控。"Dhanji 承认这种担忧远大于实际风险——"LLM 在工具使用上天生就相当谨慎"。但 Goose 设计了一套阶梯式安全结构:
首先是"让我审查所有操作模式"——任何破坏性操作都需要用户确认。当用户建立信任后可以切换到完全自主模式。即使在自主模式下,Goose 在做破坏性操作之前通常会主动提醒。用户可以在任何时候中断它并说"不要那样做,换个方法"。
最关键的安全设计是:Goose 以用户的身份运行。"它不是一头野机器人跑进数据中心为所欲为——它遵循与该用户相同的访问控制。所以在销售岗位的人不可能获取财务信息,反之亦然。"
此外,Block 还构建了"无头 Goose(Headless Goose)"——它在 CI 管道中运行,每次 InfoSec 提交漏洞工单后,自动尝试修复。"但所有代码都遵循非常严格的审计和审查流程——人类必须阅读一切并确认修复正确才能进入生产环境。"
群体智能与开源模型的未来
Dhanji 对模型竞争格局有着独到的见解。"当前的方式是:一个模型,几个模型,一个代理在你的笔记本上做副驾驶式的编码——Goose 也是这么运作的。但我认为解锁编码能力的未来是群体智能(Swarm Intelligence)。"
"不是一个代理与你互动,而是如何让 50 个代理实例、或者 100 个——如果叫'geese'的话——一起去构建相当复杂的应用。现在我们的核心工具调用循环平均每次轮次两到三分钟就结束。但如果它能与其他 50 个 Goose 实例协同工作数小时呢?它能不能构建像 Cash App 规模那么大的复杂应用?"
这个思考导向了一个对开源 vs. 闭源争论的独特框架:"竞争可能不再是'开源模型 X 是否像闭源模型 Y 一样好',而是'我能否利用开源模型 X——因为它足够小、足够便宜——同时运行 50、60、500、1,000 个副本,使其累积能力超越任何单个大语言模型'。"
他提出"无限数量的蚂蚁能否建造宇宙飞船"的哲学问题——答案可能是分层群体架构:一些大型强模型做规划和重新整合,把问题分解成极小的纳米服务,由较简单模型并行处理。
Block 本身不开发 LLM,但开发面向客户服务和风控的专门 SLM(小型语言模型),同时正在进行语音到语音模型(Speech-to-Speech Model)的前沿研究,并计划开源所有发现。"所有模型都应该开源——核心基础技术应该像互联网被构想的那样成为一个公用事业。"
远程组织与速度之谜
作为一位从悉尼远程管理工程的 CTO,Dhanji 坦诚远程工作不完美。"我不会坐在这里说远程在各方面都完美。确实有速度上的折损,还有偶然性的损失——饮水机边的对话确实能加速工作。"
但他认为收益远超成本。"有一些员工,他们是各自领域的灯塔——如果不能在瑞典或悉尼雇佣他们,他们永远不会为我们工作。从 Cash App 最早的时候,分布式工作就在我们的 DNA 里。我们在澳大利亚开设工程办公室差不多有十年了——而且从未后悔。"Block 能够在新兴市场留任顶尖工程师六到八年,避免了硅谷级别的竞争。
氛围编程时代的到来
"Goose 基本上开创了氛围编程。至少我们是其中非常早期的实践者。"Dhanji 自己每天写代码——全部通过 Goose 或其他 AI 代理完成。"我极少手动写代码。我可能做点编辑或者注释掉一些东西来看效果。我们已经身处氛围编程时代。"
对于工程师是否该手动写代码的争论,Dhanji 的观点很实在:如果你在做真正需要极致性能和安全性的东西(支付加密等),"一个经验丰富的开发人员写的紧凑高效代码,LLM 还无法匹敌——在一些非常狭窄的案例中"。但即使在这些场景下,"开发人员更好的做法仍然是用 LLM 先出代码,然后看哪里可以改进。就像雕塑家或写短篇小说——有一个骨架来工作是比坐下来从零开始更有生产力的。"
"LLM 写出高性能代码的能力超出很多人预期——你只需要让它们以特定的方式写。它们真正失败的地方是理解专有 API——因为这些不在训练集中,特别是非常复杂的专有框架。"
问答精选
-
AI 的真实影响数据:手工工作量节省小时数从 0% 起步,预计年底达到 25%。工程师每周报告通过 Goose 节省 8 到 10 小时。"但 LLM 的真正效用阶段还在前方——我们刚刚开始看到它的一些表现。"
-
开源 Goose 的逻辑:"我们有两个选择:让 3,000 多名工程师的社区开发某样东西,或者让 3 万多名工程师的更广泛社区来审视我们的工作并贡献想法。作为核心价值观,这深深根植于我们的 DNA 中。"
-
最大的愿望:"我总希望能更快。有些工具在本地跑起来的那种响应速度真的让人振奋——我想要整个团队、整个项目、整个组织规模的倡议都拥有那种速度。这些工具有史以来第一次给了我们打破摩擦的可能性。"
-
对开源模型的态度:"最近 Quen 令我印象深刻——它不仅超快,而且工具使用能力真的很强,发展速度也极快。我们首选的将是所有模型开源和开放权重——核心基础技术应该像互联网一样成为一个公用事业。"