Google DeepMind的Logan Kilpatrick:为什么模型会吞噬脚手架——智能体时代、世界模型与AI编码的飞轮

cover>

摘要

在这场信息密度极高的对话中,Google AI Studio和Gemini API的负责人Logan Kilpatrick揭示了Google正经历的深刻转型——从"Gemini是贯穿所有产品的主线"到"Anti-Gravity智能体脚手架(agent harness)成为第二条主线"。他深入解释了"模型吞噬脚手架"这一核心命题:当下所有AI公司竞相构建的智能体框架、工具调用系统,将在12个月内被模型本身内化吸收,竞争焦点将不断上移。Kilpatrick还讨论了为何编码已成为"窄域超级智能(narrow super intelligence)",世界模型的定义正在模糊化,以及Google DeepMind如何在Demis Hassabis的科学基因与Sundar Pichai的产品使命间保持平衡。对于创业者,他的信号很明确:大公司无法聚焦的垂直领域,恰恰是初创企业凭借专注这一超能力跑赢模型实验室的机会所在。

正文

智能体时代:从一条主线到两条主线

访谈从Sundar Pichai在Google I/O大会上的开场宣言切入——"我们进入了智能体Gemini时代(the Agentic Gemini era)"。Kilpatrick解释说,这不是一个突然的转弯,而是从Gemini 2.0就开始布局的长期方向。但真正关键的转折在于:过去,Gemini API是贯穿Google所有产品的主线——搜索、Gmail、Workspace都以某种方式使用Gemini模型。而现在,第二条主线正在浮现。

"Anti-Gravity,"Kilpatrick说,"这个智能体脚手架正在成为所有Google产品的底层驱动力。"Anti-Gravity不仅仅是一个IDE——它是一个包含IDE、Web端智能体优先体验、CLI、SDK在内的完整开发生态系统。更重要的是,同样的脚手架(harness)正在驱动Google搜索中的智能体功能、Gemini App中的24/7始终在线智能体(always-on agent),以及Google Cloud和AI Studio的各项能力。

"所以从'Gemini API是主线'变成了'API加上智能体脚手架共同作为主线'。"Kilpatrick这样总结。这意味着驱动Google产品智能体化(agentic)进程的,不仅是底层语言模型的能力,更是围绕模型构建的整个智能体基础设施。

爬行、行走、奔跑:Google产品的智能体成熟度

当被要求对Google产品矩阵的智能体成熟度进行评级时,Kilpatrick的回答坦率而审慎。"大多数产品体验目前更接近爬行(crawl)阶段,"他承认,"但我们有一些实验室体验可能已经接近行走(walk)甚至奔跑(run)。"

这种谨慎源于Google的现实约束:拥有130亿级用户产品带来的管理责任(stewardship responsibility)。"长尾用户还没准备好让AI全权接管一切,"Kilpatrick强调,"他们希望在驾驶座上,谨慎地迈出第一步。"Google搜索团队就是最典型的例子——他们肩负着以一种"带所有人一起走"而非"颠覆一切"的方式推动变革的责任。

在具体产品层面,Gemini App是最接近"行走"阶段的产品,其Spark功能提供24/7始终在线智能体,可以代表用户自主执行一系列操作。Anti-Gravity则代表了另一个前沿——允许用户运行自主编码智能体(autonomous coding agents),在数天内消耗数十亿token、花费数千美元来重建操作系统或完成复杂任务。

编码即窄域超级智能:从Claude到Codex的竞争格局

访谈中最引人注目的段落之一是Kilpatrick对编码智能体现状的判断。当主持人指出"开发者朋友中几乎没人在用Gemini编码,而是50/50分流在Claude和Codex之间"时,Kilpatrick给出了一个多维度的回应。

首先,他回顾了叙事的变化轨迹:"去年12月,当Gemini 3发布时,叙事是'Google赢了'——那是一次从模型能力角度的巨大飞跃。"但随后,假期期间出现的智能体编码(agentic coding)浪潮迅速改变了舆论风向。"这是一个元提醒(meta reminder),告诉我们事情变化有多快。"

其次,他揭示了Google内部正在发生的事情:"我们意识到,如果不真正拥有一个做长周期编码工作的产品,就很难做出一个优秀的编码模型。"这就是Google收购Windsurf团队并将其整合为Anti-Gravity的原因。内部数据显示,Google内部的token消费量正在急剧增长,Anti-Gravity的飞轮正在转动。

最后,他引入了一个关键概念——"窄域超级智能"。"编码现在给人的感觉就是窄域超级智能,"他说,"它不需要在所有事情上都超级智能,仅仅是编码领域就已经影响巨大。"他认为,在编码之后,数学、金融和科学(因为有可验证性verifiability)将是下一个出现窄域超级智能的领域。

模型吞噬脚手架:12个月内的范式转移

"模型吞噬脚手架(the model eats the harness)"是这场对话的核心命题。Kilpatrick的论述层层递进:

首先,"模型"的定义已经改变。两年前,LLM只是一组权重(a set of weights),输入token、输出token。但现在,"模型"已经扩展为一个围绕权重构建的庞大系统——智能体工具调用(agentic tool calling)、托管搜索(hosted search)、代码执行(code execution)、容器化部署(containers)——所有这些外部脚手架共同构成了如今的"模型"体验。

其次,脚手架与模型之间存在一个持续的追赶循环:脚手架领先模型几步,提供模型尚未原生支持的能力;然后模型逐步将这些能力内化吸收;脚手架再去构建新的外层能力。

"12个月后,今天我们认为智能体脚手架是alpha所在的地方——这个判断可能不再成立,"Kilpatrick预测,"模型将消化掉其中相当大一部分,alpha将转移到别的地方。你不需要自己去搭建脚手架,因为模型原生就能做到。"

但他的观点并非绝对。搜索和代码执行等场景中,外部脚手架仍有价值——用户可能偏好不同的搜索提供商或执行环境。他也提出了一个有趣的概念:"我们需要一个'脚手架基准测试'(Harness Bench),来衡量不同模型适配各种脚手架的能力。"

世界模型的定义正在模糊化

当对话转向世界模型(world models)时,Kilpatrick给出了一个关键洞察:传统世界模型(如Genie,被定义为"动作条件视频模型/action-conditioned video model")与Google最新发布的Omni之间存在根本性差异。

"Omni是一个单一模型(single model),"他强调,"不是一个路由到八个不同模型的路由系统——过去我们有文本模型Gemini、音频模型、Lyria音乐模型、Nano Banana图像模型、Veo视频模型等一整套套件。Omni将这一切整合为一个真正的全模态模型(true omni model)。"

但更微妙的是,Omni对世界的理解方式与传统世界模型不同。"从技术架构角度看,它与过去的世界模型不同,但它在很多用例上可以完成同样的事情。这就是世界模型定义正在模糊化的地方。"目前,视频编辑是Omni表现最好的用例,但模型本身在其他模态上也功能完备,只是质量尚未达到最先进水平。

Vibe Coding游戏与Android应用:350,000个应用的一周

Kilpatrick分享了一个令人震惊的数据:自AI Studio上线Android应用构建功能以来,一周内就有350,000个Android应用被创建。"令人兴奋的是,这可能是350,000个原本没人会去构建的应用——其中很多是个人的(personal),"他说,"构建软件来解决个人问题这个想法,现在已经非常真实。"

对于"Vibe Coding游戏"的预测——他去年10月曾发推说"到2025年底每个人都能Vibe Code视频游戏"——Kilpatrick认为已经非常接近。"模型能力已经使这成为可能,瓶颈不在于模型质量,而在于有人真正理解如何构建好游戏,将脚手架以正确的方式组合起来。"

在游戏实现路径上,他给出了明确的短期判断:"短期来看,编码智能体加某种游戏引擎(game engine + coding agents)会产生更多alpha,而不是依赖世界模型。"但长期来看,世界模型可能随着产品的脚手架完善而变得适用。

蚕食恐惧与正和博弈:智能体时代的商业逻辑

面对"智能体能力增强是否会减少用户眼球时间(eyeball hours)、从而蚕食Google现有业务"的尖锐问题,Kilpatrick的回应建立在一个关键观察之上:

"AI刚开始时,所有人都假设AI能回答问题对搜索来说是负和博弈(negative sum)。实际发生的是极端的正和博弈(positive sum)——人们搜索得更多了。"

他进一步用Demis Hassabis的视角阐释Google的底层哲学:"成功对Google来说,可能不是最大化用户盯着我们产品的时间——而是最大化用户成果(outcomes),让他们能去做自己想做的事,过自己的生活。你可能会看到我们走上'最大化客户成果而非最大化眼球'这条路。"

对于广告和商业模式的连锁影响,Kilpatrick承认这是"巨大的开放问题",但认为变化可能比人们想象的更渐进——因为新旧事物往往是叠加而非替代关系。

软起飞与自我加速飞轮

Kilpatrick明确相信"软起飞(soft takeoff)"叙事——即足够好的智能体编码模型将加速研究进程,形成自我强化循环。"这看起来是显而易见的,"他说,"从产品角度看,我们已经看到迹象——我们的团队用Anti-Gravity构建了移动应用,比Google历史上任何团队构建移动应用的速度都快;Josh的团队用端到端的方式交付了Gemini Mac OS应用,速度也破了纪录。"

但从模型研发角度看,他认为仍然处于早期。"这些大型训练运行的资源分配太重大了,你仍然需要人类在驾驶座上做决策——你不会意外地让10,000个TPU去启动一个没有意义的任务。"

智能体增长:SEO的影子在AI时代重现

一个被严重低估的洞察是"智能体增长(agent growth)"的概念。正如SEO(搜索引擎优化)定义了上一个时代的获客逻辑,GEO(生成引擎优化/generative engine optimization)正在定义AI时代的获客逻辑。"这些事物彼此之间高度相关,"Kilpatrick指出,"智能体在做更多事情的同时,人类也在做更多搜索——两者并非零和。"

对于创业公司面临的核心焦虑——"如果模型吞噬了所有脚手架,应用层公司如何生存?"——Kilpatrick给出了一个清晰而有力的答案:

"专注(focus)是初创企业的超能力。24个月前我们都在问:创业机会是不是在缩小?但实际发生的完全相反——机会比以往更多。编码帮助你缩小与大公司的差距;智能体原语(agentic primitive)是一个全新的品类可以围绕构建产品;不同公司有不同的风险偏好,你愿意承担更多风险,就能赢得愿意承担风险的用户群。大公司有太多产品、太多用户、太多事情在进行——我们实际上无法聚焦在一个领域。但这对于初创企业来说并不成立。"

Google DeepMind的文化:科学基因与产品引擎的融合

在访谈的最后部分,Kilpatrick分享了Google DeepMind内部文化的三个观察:

第一,组合思维。"我们拥有业界最强的产品组合之一,但你会看到某些时刻,某个实验室或公司在某个领域领先,因为我们在那个领域投资不足或不够聚焦。看着我们如何弥合差距的方式,我非常欣赏。"

第二,领导者的基因渗透。"Demis是诺贝尔奖科学家,是很多事情的OG——你能在DeepMind文化中感受到这一点。Sam Altman可能是世界上最优秀的商人之一,你也能在OpenAI的文化中看到这一点。DeepMind以科学的方式看待世界——Demis创办这个使命的理由是'解决疾病和所有这些问题'。在SWE-bench上推高一个数字的竞争很容易让人迷失,但真正的目标是解决人类实际面临的问题。"

第三,Google的引擎室。"DeepMind Twitter账号的简介就是'Google的引擎室',我超爱这个说法。一方面你有根深蒂固的实验室文化,另一方面你有遍布Google生态系统的所有合作伙伴——从Android到Google Cloud、Gmail、Workspace。将Gemini部署到十亿级用户产品中,这是一个全世界只有两家公司才有的问题——我们拥有13个这样的产品。你只有在Google内部才能做到这件事。"

Kilpatrick用Gavin Belson的经典名言结束了对文化的讨论:"我们不能让别人比我们更努力地让世界变得更好——这就是这个时刻的感觉。我们都在比赛谁能比对方更努力地让世界变得更好。当你这样看的时候,这完全不是零和博弈。"