Google DeepMind的Logan Kilpatrick：为什么模型会吞噬脚手架——智能体时代、世界模型与AI编码的飞轮

cover Sequoia Capital · 2026-06-11🎬 在 YouTube 观看原视频 →>

摘要

在这场信息密度极高的对话中，Google AI Studio和Gemini API的负责人Logan Kilpatrick揭示了Google正经历的深刻转型——从"Gemini是贯穿所有产品的主线"到"Anti-Gravity智能体脚手架（agent harness）成为第二条主线"。他深入解释了"模型吞噬脚手架"这一核心命题：当下所有AI公司竞相构建的智能体框架、工具调用系统，将在12个月内被模型本身内化吸收，竞争焦点将不断上移。Kilpatrick还讨论了为何编码已成为"窄域超级智能（narrow super intelligence）"，世界模型的定义正在模糊化，以及Google DeepMind如何在Demis Hassabis的科学基因与Sundar Pichai的产品使命间保持平衡。对于创业者，他的信号很明确：大公司无法聚焦的垂直领域，恰恰是初创企业凭借专注这一超能力跑赢模型实验室的机会所在。

正文

智能体时代：从一条主线到两条主线

访谈从Sundar Pichai在Google I/O大会上的开场宣言切入——"我们进入了智能体Gemini时代（the Agentic Gemini era）"。Kilpatrick解释说，这不是一个突然的转弯，而是从Gemini 2.0就开始布局的长期方向。但真正关键的转折在于：过去，Gemini API是贯穿Google所有产品的主线——搜索、Gmail、Workspace都以某种方式使用Gemini模型。而现在，第二条主线正在浮现。

"Anti-Gravity，"Kilpatrick说，"这个智能体脚手架正在成为所有Google产品的底层驱动力。"Anti-Gravity不仅仅是一个IDE——它是一个包含IDE、Web端智能体优先体验、CLI、SDK在内的完整开发生态系统。更重要的是，同样的脚手架（harness）正在驱动Google搜索中的智能体功能、Gemini App中的24/7始终在线智能体（always-on agent），以及Google Cloud和AI Studio的各项能力。

"所以从'Gemini API是主线'变成了'API加上智能体脚手架共同作为主线'。"Kilpatrick这样总结。这意味着驱动Google产品智能体化（agentic）进程的，不仅是底层语言模型的能力，更是围绕模型构建的整个智能体基础设施。

爬行、行走、奔跑：Google产品的智能体成熟度

当被要求对Google产品矩阵的智能体成熟度进行评级时，Kilpatrick的回答坦率而审慎。"大多数产品体验目前更接近爬行（crawl）阶段，"他承认，"但我们有一些实验室体验可能已经接近行走（walk）甚至奔跑（run）。"

这种谨慎源于Google的现实约束：拥有130亿级用户产品带来的管理责任（stewardship responsibility）。"长尾用户还没准备好让AI全权接管一切，"Kilpatrick强调，"他们希望在驾驶座上，谨慎地迈出第一步。"Google搜索团队就是最典型的例子——他们肩负着以一种"带所有人一起走"而非"颠覆一切"的方式推动变革的责任。

在具体产品层面，Gemini App是最接近"行走"阶段的产品，其Spark功能提供24/7始终在线智能体，可以代表用户自主执行一系列操作。Anti-Gravity则代表了另一个前沿——允许用户运行自主编码智能体（autonomous coding agents），在数天内消耗数十亿token、花费数千美元来重建操作系统或完成复杂任务。

编码即窄域超级智能：从Claude到Codex的竞争格局

访谈中最引人注目的段落之一是Kilpatrick对编码智能体现状的判断。当主持人指出"开发者朋友中几乎没人在用Gemini编码，而是50/50分流在Claude和Codex之间"时，Kilpatrick给出了一个多维度的回应。

首先，他回顾了叙事的变化轨迹："去年12月，当Gemini 3发布时，叙事是'Google赢了'——那是一次从模型能力角度的巨大飞跃。"但随后，假期期间出现的智能体编码（agentic coding）浪潮迅速改变了舆论风向。"这是一个元提醒（meta reminder），告诉我们事情变化有多快。"

其次，他揭示了Google内部正在发生的事情："我们意识到，如果不真正拥有一个做长周期编码工作的产品，就很难做出一个优秀的编码模型。"这就是Google收购Windsurf团队并将其整合为Anti-Gravity的原因。内部数据显示，Google内部的token消费量正在急剧增长，Anti-Gravity的飞轮正在转动。

最后，他引入了一个关键概念——"窄域超级智能"。"编码现在给人的感觉就是窄域超级智能，"他说，"它不需要在所有事情上都超级智能，仅仅是编码领域就已经影响巨大。"他认为，在编码之后，数学、金融和科学（因为有可验证性verifiability）将是下一个出现窄域超级智能的领域。

模型吞噬脚手架：12个月内的范式转移

"模型吞噬脚手架（the model eats the harness）"是这场对话的核心命题。Kilpatrick的论述层层递进：

首先，"模型"的定义已经改变。两年前，LLM只是一组权重（a set of weights），输入token、输出token。但现在，"模型"已经扩展为一个围绕权重构建的庞大系统——智能体工具调用（agentic tool calling）、托管搜索（hosted search）、代码执行（code execution）、容器化部署（containers）——所有这些外部脚手架共同构成了如今的"模型"体验。

其次，脚手架与模型之间存在一个持续的追赶循环：脚手架领先模型几步，提供模型尚未原生支持的能力；然后模型逐步将这些能力内化吸收；脚手架再去构建新的外层能力。

"12个月后，今天我们认为智能体脚手架是alpha所在的地方——这个判断可能不再成立，"Kilpatrick预测，"模型将消化掉其中相当大一部分，alpha将转移到别的地方。你不需要自己去搭建脚手架，因为模型原生就能做到。"

但他的观点并非绝对。搜索和代码执行等场景中，外部脚手架仍有价值——用户可能偏好不同的搜索提供商或执行环境。他也提出了一个有趣的概念："我们需要一个'脚手架基准测试'（Harness Bench），来衡量不同模型适配各种脚手架的能力。"

世界模型的定义正在模糊化

当对话转向世界模型（world models）时，Kilpatrick给出了一个关键洞察：传统世界模型（如Genie，被定义为"动作条件视频模型/action-conditioned video model"）与Google最新发布的Omni之间存在根本性差异。

"Omni是一个单一模型（single model），"他强调，"不是一个路由到八个不同模型的路由系统——过去我们有文本模型Gemini、音频模型、Lyria音乐模型、Nano Banana图像模型、Veo视频模型等一整套套件。Omni将这一切整合为一个真正的全模态模型（true omni model）。"

但更微妙的是，Omni对世界的理解方式与传统世界模型不同。"从技术架构角度看，它与过去的世界模型不同，但它在很多用例上可以完成同样的事情。这就是世界模型定义正在模糊化的地方。"目前，视频编辑是Omni表现最好的用例，但模型本身在其他模态上也功能完备，只是质量尚未达到最先进水平。

Vibe Coding游戏与Android应用：350,000个应用的一周

Kilpatrick分享了一个令人震惊的数据：自AI Studio上线Android应用构建功能以来，一周内就有350,000个Android应用被创建。"令人兴奋的是，这可能是350,000个原本没人会去构建的应用——其中很多是个人的（personal），"他说，"构建软件来解决个人问题这个想法，现在已经非常真实。"

对于"Vibe Coding游戏"的预测——他去年10月曾发推说"到2025年底每个人都能Vibe Code视频游戏"——Kilpatrick认为已经非常接近。"模型能力已经使这成为可能，瓶颈不在于模型质量，而在于有人真正理解如何构建好游戏，将脚手架以正确的方式组合起来。"

在游戏实现路径上，他给出了明确的短期判断："短期来看，编码智能体加某种游戏引擎（game engine + coding agents）会产生更多alpha，而不是依赖世界模型。"但长期来看，世界模型可能随着产品的脚手架完善而变得适用。

蚕食恐惧与正和博弈：智能体时代的商业逻辑

面对"智能体能力增强是否会减少用户眼球时间（eyeball hours）、从而蚕食Google现有业务"的尖锐问题，Kilpatrick的回应建立在一个关键观察之上：

"AI刚开始时，所有人都假设AI能回答问题对搜索来说是负和博弈（negative sum）。实际发生的是极端的正和博弈（positive sum）——人们搜索得更多了。"

他进一步用Demis Hassabis的视角阐释Google的底层哲学："成功对Google来说，可能不是最大化用户盯着我们产品的时间——而是最大化用户成果（outcomes），让他们能去做自己想做的事，过自己的生活。你可能会看到我们走上'最大化客户成果而非最大化眼球'这条路。"

对于广告和商业模式的连锁影响，Kilpatrick承认这是"巨大的开放问题"，但认为变化可能比人们想象的更渐进——因为新旧事物往往是叠加而非替代关系。

软起飞与自我加速飞轮

Kilpatrick明确相信"软起飞（soft takeoff）"叙事——即足够好的智能体编码模型将加速研究进程，形成自我强化循环。"这看起来是显而易见的，"他说，"从产品角度看，我们已经看到迹象——我们的团队用Anti-Gravity构建了移动应用，比Google历史上任何团队构建移动应用的速度都快；Josh的团队用端到端的方式交付了Gemini Mac OS应用，速度也破了纪录。"

但从模型研发角度看，他认为仍然处于早期。"这些大型训练运行的资源分配太重大了，你仍然需要人类在驾驶座上做决策——你不会意外地让10,000个TPU去启动一个没有意义的任务。"

智能体增长：SEO的影子在AI时代重现

一个被严重低估的洞察是"智能体增长（agent growth）"的概念。正如SEO（搜索引擎优化）定义了上一个时代的获客逻辑，GEO（生成引擎优化/generative engine optimization）正在定义AI时代的获客逻辑。"这些事物彼此之间高度相关，"Kilpatrick指出，"智能体在做更多事情的同时，人类也在做更多搜索——两者并非零和。"

对于创业公司面临的核心焦虑——"如果模型吞噬了所有脚手架，应用层公司如何生存？"——Kilpatrick给出了一个清晰而有力的答案：

"专注（focus）是初创企业的超能力。24个月前我们都在问：创业机会是不是在缩小？但实际发生的完全相反——机会比以往更多。编码帮助你缩小与大公司的差距；智能体原语（agentic primitive）是一个全新的品类可以围绕构建产品；不同公司有不同的风险偏好，你愿意承担更多风险，就能赢得愿意承担风险的用户群。大公司有太多产品、太多用户、太多事情在进行——我们实际上无法聚焦在一个领域。但这对于初创企业来说并不成立。"

Google DeepMind的文化：科学基因与产品引擎的融合

在访谈的最后部分，Kilpatrick分享了Google DeepMind内部文化的三个观察：

第一，组合思维。"我们拥有业界最强的产品组合之一，但你会看到某些时刻，某个实验室或公司在某个领域领先，因为我们在那个领域投资不足或不够聚焦。看着我们如何弥合差距的方式，我非常欣赏。"

第二，领导者的基因渗透。"Demis是诺贝尔奖科学家，是很多事情的OG——你能在DeepMind文化中感受到这一点。Sam Altman可能是世界上最优秀的商人之一，你也能在OpenAI的文化中看到这一点。DeepMind以科学的方式看待世界——Demis创办这个使命的理由是'解决疾病和所有这些问题'。在SWE-bench上推高一个数字的竞争很容易让人迷失，但真正的目标是解决人类实际面临的问题。"

第三，Google的引擎室。"DeepMind Twitter账号的简介就是'Google的引擎室'，我超爱这个说法。一方面你有根深蒂固的实验室文化，另一方面你有遍布Google生态系统的所有合作伙伴——从Android到Google Cloud、Gmail、Workspace。将Gemini部署到十亿级用户产品中，这是一个全世界只有两家公司才有的问题——我们拥有13个这样的产品。你只有在Google内部才能做到这件事。"

Kilpatrick用Gavin Belson的经典名言结束了对文化的讨论："我们不能让别人比我们更努力地让世界变得更好——这就是这个时刻的感觉。我们都在比赛谁能比对方更努力地让世界变得更好。当你这样看的时候，这完全不是零和博弈。"