Google I/O Afterparty：人机协作的未来——从 Veo 到 Mariner 再到 NotebookLM

cover Sequoia Capital · 2025-06-03🎬 在 YouTube 观看原视频 →>

摘要

在 Google I/O 2025 的余温中，来自 Google Labs 的三位产品领导者齐聚一堂，分别从三个截然不同的维度探讨了人机协作的未来。这场对话的信息密度极高，核心命题是：AI 正在从"生成"转向"可再混合的体验"（remixable experiences）。

Thomas Iljik（Whisk 和 Veo 负责人）展示了创意内容生产的范式转变——不再只是"生成一张图片"，而是构建一个"生成式 AI 相机"（generative AI camera）。用户先进行世界构建（world building）——定义舞台、资产、外观——然后在其中拍摄，可以重新拍摄、暂停、修正、回到过去、重新生成。他提出的"Show & Tell"交互理念（不要写两页提示词，直接给参考图片并说"我想做类似的东西"）正在定义 AI 创意工具的新范式。更令人兴奋的是，他认为视频生成、模拟和游戏的边界正在消融——"它们在这个新世界中是同一回事"。

Jaclyn Consulman（Project Mariner 负责人）展示了计算机使用代理（computer use agent）如何从根本上改变电子商务。Mariner 从最初的 Chrome 扩展（用户在浏览器中观看代理操控鼠标）演进为可在后台虚拟机中并行执行多达 10 项任务的代理——用户只需输入任务，即可回到自己的工作。她敏锐地指出，当"人类完成结账的懒惰程度"不再是电商成功的决定性因素时，将引发商业模式、网站设计乃至整个互联网运作方式的深度变革。

Simon Takamina（NotebookLM 负责人）则揭示了"为一个观众定制"的个人化内容如何创造了一个全新的媒体品类。他回顾了去年音频概述（Audio Overviews）的病毒式传播时刻——"前几个月我们基本上是在为生存挣扎，确保 TPU 不会完全熔化"——以及之后如何从这一"病毒钩子"出发，将 NotebookLM 重新定位为支持用户长期项目的知识积累与转化工具。他透露，团队正在探索从播客到漫画、故事版等多种内容适配（adaptation）形态，同时应对那个恼人的"恐怖谷"问题——当 AI 生成的对话偶尔偏离主题时，沉浸感瞬间崩塌。

正文

"第一章结束，第二章开启"：Google 在 AI 领域的公共舆论逆转

对话以一个问题开场：为什么公众对 Google AI 的看法在过去一年发生了如此剧烈的翻转？三位嘉宾的一致回答是"模型"——但背后有更丰富的层次。

Thomas 指出，Google 在生成式 AI（Gen AI）领域的改善在过去三年里一直在持续，但外部直到最近才注意到。"我们在很多排行榜上排第一，模型能做的一些事情只有 Google 模型能做到——这对内部的我们来说，感觉更像是第一章结束，第二章开启。"

Jaclyn 补充了产品维度：Google 不仅发布了更多模型，还将其整合到了现有产品和全新实验中——IO 周的密集发布让外部世界终于看到了"我们在做什么"。

Veo 和 Whisk：从生成到"世界构建"

Thomas 的创意产品探索始于两三年前——ControlNet 论文和 LoRA 技术的出现让他意识到模型输出变得"可引导"（steerable）了。用户不再只是"按下按钮"，而是可以指定姿态、场景，通过展示图片来引导模型。

基于大量实验（包括与艺术家合作制作半集动画），团队沉淀出三个核心信念：创作必须是迭代的、媒体应该附带"蓝图"（别人可以接着你的创作继续）、交互应该是"Show & Tell"——不是写两页提示词，而是给参考图片并口头说明。

Whisk 是面向大众消费者的探索——"现在每个人都有视觉语言在手边"。而 Veo/Flow 则是面向专业创作者的"生成式 AI 相机"——用户先做世界构建（定义场景和资产），然后在其中"拍摄"。Thomas 将 AI 电影制作人（AI filmmakers）定义为那些"没有 10 万美元预算但至少想试试的人"。

Veo 3 的里程碑：通过"威尔·史密斯吃意大利面测试"

当主持人问到 Veo 3 的表现时，Thomas 给出了一个令人会心一笑的评价："它打败了 Veo 2 的排名，大家非常开心。"模型在遵循度（adherence）上有了巨大提升，不再有六指问题，物理表现越来越好。

但仍有一些边界："多角色编排和跨场景的完全一致性"是当前的主要挑战。而 IO 上最大的爆料是音频的联合生成（co-generation）——"视频配上声音之后，远超普通视频——这打开了一个全新的病毒传播维度。"

对于未来，Thomas 将重点放在两个方向上：一是精炼输出（refinement of outputs）——插入编辑、重新拍摄；二是探索"新格式和新体验"——"作为一个创作者，我分享给你的不是一张图片，而是一个你可以在其中互动的东西。所以，我分享的到底是图片还是体验？"

视频、模拟与游戏的边界消融

整场对话中最令人深思的洞察之一来自 Thomas："视频生成、模拟、游戏——它们在这个新世界中基本上是同一回事。"他将其概括为"世界构建"：你定义规则和约束条件，其他人进来享受其中。

这种模糊边界意味着前所未有的创作模式正在涌现——用户生成一张图片，接收者可以立即将其变成一个可以走进其中的场景。这引出了一个根本性的人类问题：我们究竟是在分享内容，还是在分享体验？

Project Mariner：计算机使用代理的三层架构

Jaclyn 讲述了 Project Mariner 的演进故事。源于去年 Google I/O 后团队释放了带宽去探索"下一步是什么"，答案浮出水面——不仅是回答问题或生成内容的 AI，而是能代表用户采取行动的代理。

Mariner 的第一个版本是去年 12 月发布的 Chrome 扩展，能接管浏览器鼠标进行点击和滚动。用户的反馈非常有趣："这太酷了——但我能不能重新用我的浏览器？我也想干自己的活儿。" 这直接推动了当前版本的诞生：用户在网页应用中输入任务，任务在后台虚拟机（VM）中运行，用户继续自己的工作。

当前版本的一个巧妙设计是"上下文桥接"——伴侣扩展会看到用户打开的所有标签页。当用户看到某个食谱网站上的鸡肉食谱时，可以直接告诉 Mariner "把这些食材加到我的 Instacart 购物车中"，并选择那个打开的标签页——Mariner 会在 VM 中重新访问该网站并使用那个上下文。

Jaclyn 将 Mariner 的未来划分为三个演进维度：代理本身（更好的模型、工具使用、记忆、上下文理解）；环境（从本地桌面到 VM，再到在设备后台运行的中间层）；生态系统（代理与代理之间的交互，代理如何与外部世界互动）。

从"预定航班"到电商商业模式的颠覆

当被问到计算机使用代理的最佳应用场景时，Jaclyn 坦承"预定航班、订披萨"是常用的默认例子——因为它们易于理解。但她将真正的应用场景描绘为一条光谱：一端是"和我一起做"（do it with me），另一端是"替我做"（do it for me）。

更深刻的洞察在于商业模式层面。当消费者不再因为"懒得完成结账"而放弃购买时——"我的代理会帮我克服那个障碍"——"最佳产品将获胜，而不是最会抓住人类注意力的广告。" 她进一步描绘了一个未来：用户的代理成为一个"通用购物车"——跨所有网站的聚合式购物篮，用户可以慢慢积累待购商品，然后一键完成所有购买。

"当我第一次使用 Mariner 时，"Jaclyn 分享道，"我给它分配了三个不同的任务，然后回到我正在写的文档——那一刻的魔法是，不仅事情在向前推进，而且我不需要再想着它们了。"

NotebookLM：从一个观众开始的新媒体品类

Simon 的开场白带着一种幽默的自嘲。NotebookLM 在去年因音频概述（Audio Overviews）而病毒式传播——两个 AI 主持人像播客一样讨论用户上传的资料。"我们完全没准备好。前几个月基本上是在为生存挣扎——确保 TPU 不完全熔化。"

病毒高潮过后，团队在 2025 年初"重新盘点"，回到了一个核心问题：对于 Notebook 用户来说，Notebook 到底是什么？数据显示一个关键模式：用户在 Notebook 中做的是"更长期的项目"——无论是工作中的持续项目还是个人爱好。

这引导了 NotebookLM 的重新定位：赋予用户三种超级能力——① 积累信息（跨时间的信息聚合，利用 Google 底层数据库技术）；② 内置智能（从 Gemini 1.5 Pro 到现在的思考模型）；③ 信息以适合你情境的形态呈现（播客只是其中一种形态——漫画书、思维导图、短电影都是可能的）。

Simon 用一个生动的例子说明了内容适配（adaptation）的独特价值：一份关于欧洲入侵狼群的 150 页博士论文——"你可以看思维导图，可以花 10-15 分钟听音频概述，但以漫画书的形式呈现——让你立刻抓住整体叙事脉络，这才是真正帮了大忙。"

音频概述的恐怖谷与下一代形态

尽管音频概述取得了巨大成功，Simon 坦率地承认了它的"恐怖谷"（uncanny valley）问题："我经常用，但时不时会想'这有点奇怪'——他们为什么说了那句话？为什么失去了主线？沉浸感就被打破了。"

修复这"最后一步"看起来好像工作量很小，但实际上需要巨大的工程投入——在底层模型、叙事逻辑、对话动力学等多个维度上进行系统性改进。

Simon 透露，团队正在开发"不同节目类型"——不再是只有一种"两个主持人聊天"的模式。"我们被用户启发了很多。比如很多用户会把自己的 LinkedIn 放进去——为什么？一是听到人谈论你很有趣，二是他们在获取反馈——真正的反馈千金难求。你自己很难看清自己，但听另一个人聊你的优势和待改进领域是极具价值的。"

2025 AI 应用的下一个爆发点与团队预测

对话以预测收尾。Thomas 押注"可再混合的内容"——"你生成一些东西，我拿过来在上面即兴发挥，这种动态将在某个地方爆发。"Jaclyn 选择了"虚拟试穿"（Virtual Try-on）——"它解决了一个实实在在的用户需求，而且是 Google 的强势领域。"Simon 则投给了 Stitch——"对着产品说出你想要的界面设计，它直接给你前端代码——这太酷了。"

三位嘉宾也坦诚地分享了预测失败的经历——"很多次我们感到自己在做一些特别的东西，确实在正确的方向上，但只是太早了。项目暂停、停止，然后过一段时间又重新浮现。"Thomas 谈到他对"Show & Tell"交互理念的坚持——"这让我们远离了'提示词工程'，走向了'指令式交互'——我相信这是未来。"