Google I/O Afterparty:人机协作的未来——从 Veo 到 Mariner 再到 NotebookLM

cover>

摘要

在 Google I/O 2025 的余温中,来自 Google Labs 的三位产品领导者齐聚一堂,分别从三个截然不同的维度探讨了人机协作的未来。这场对话的信息密度极高,核心命题是:AI 正在从"生成"转向"可再混合的体验"(remixable experiences)。

Thomas Iljik(Whisk 和 Veo 负责人)展示了创意内容生产的范式转变——不再只是"生成一张图片",而是构建一个"生成式 AI 相机"(generative AI camera)。用户先进行世界构建(world building)——定义舞台、资产、外观——然后在其中拍摄,可以重新拍摄、暂停、修正、回到过去、重新生成。他提出的"Show & Tell"交互理念(不要写两页提示词,直接给参考图片并说"我想做类似的东西")正在定义 AI 创意工具的新范式。更令人兴奋的是,他认为视频生成、模拟和游戏的边界正在消融——"它们在这个新世界中是同一回事"。

Jaclyn Consulman(Project Mariner 负责人)展示了计算机使用代理(computer use agent)如何从根本上改变电子商务。Mariner 从最初的 Chrome 扩展(用户在浏览器中观看代理操控鼠标)演进为可在后台虚拟机中并行执行多达 10 项任务的代理——用户只需输入任务,即可回到自己的工作。她敏锐地指出,当"人类完成结账的懒惰程度"不再是电商成功的决定性因素时,将引发商业模式、网站设计乃至整个互联网运作方式的深度变革。

Simon Takamina(NotebookLM 负责人)则揭示了"为一个观众定制"的个人化内容如何创造了一个全新的媒体品类。他回顾了去年音频概述(Audio Overviews)的病毒式传播时刻——"前几个月我们基本上是在为生存挣扎,确保 TPU 不会完全熔化"——以及之后如何从这一"病毒钩子"出发,将 NotebookLM 重新定位为支持用户长期项目的知识积累与转化工具。他透露,团队正在探索从播客到漫画、故事版等多种内容适配(adaptation)形态,同时应对那个恼人的"恐怖谷"问题——当 AI 生成的对话偶尔偏离主题时,沉浸感瞬间崩塌。

正文

"第一章结束,第二章开启":Google 在 AI 领域的公共舆论逆转

对话以一个问题开场:为什么公众对 Google AI 的看法在过去一年发生了如此剧烈的翻转?三位嘉宾的一致回答是"模型"——但背后有更丰富的层次。

Thomas 指出,Google 在生成式 AI(Gen AI)领域的改善在过去三年里一直在持续,但外部直到最近才注意到。"我们在很多排行榜上排第一,模型能做的一些事情只有 Google 模型能做到——这对内部的我们来说,感觉更像是第一章结束,第二章开启。"

Jaclyn 补充了产品维度:Google 不仅发布了更多模型,还将其整合到了现有产品和全新实验中——IO 周的密集发布让外部世界终于看到了"我们在做什么"。

Veo 和 Whisk:从生成到"世界构建"

Thomas 的创意产品探索始于两三年前——ControlNet 论文和 LoRA 技术的出现让他意识到模型输出变得"可引导"(steerable)了。用户不再只是"按下按钮",而是可以指定姿态、场景,通过展示图片来引导模型。

基于大量实验(包括与艺术家合作制作半集动画),团队沉淀出三个核心信念:创作必须是迭代的、媒体应该附带"蓝图"(别人可以接着你的创作继续)、交互应该是"Show & Tell"——不是写两页提示词,而是给参考图片并口头说明。

Whisk 是面向大众消费者的探索——"现在每个人都有视觉语言在手边"。而 Veo/Flow 则是面向专业创作者的"生成式 AI 相机"——用户先做世界构建(定义场景和资产),然后在其中"拍摄"。Thomas 将 AI 电影制作人(AI filmmakers)定义为那些"没有 10 万美元预算但至少想试试的人"。

Veo 3 的里程碑:通过"威尔·史密斯吃意大利面测试"

当主持人问到 Veo 3 的表现时,Thomas 给出了一个令人会心一笑的评价:"它打败了 Veo 2 的排名,大家非常开心。"模型在遵循度(adherence)上有了巨大提升,不再有六指问题,物理表现越来越好。

但仍有一些边界:"多角色编排和跨场景的完全一致性"是当前的主要挑战。而 IO 上最大的爆料是音频的联合生成(co-generation)——"视频配上声音之后,远超普通视频——这打开了一个全新的病毒传播维度。"

对于未来,Thomas 将重点放在两个方向上:一是精炼输出(refinement of outputs)——插入编辑、重新拍摄;二是探索"新格式和新体验"——"作为一个创作者,我分享给你的不是一张图片,而是一个你可以在其中互动的东西。所以,我分享的到底是图片还是体验?"

视频、模拟与游戏的边界消融

整场对话中最令人深思的洞察之一来自 Thomas:"视频生成、模拟、游戏——它们在这个新世界中基本上是同一回事。"他将其概括为"世界构建":你定义规则和约束条件,其他人进来享受其中。

这种模糊边界意味着前所未有的创作模式正在涌现——用户生成一张图片,接收者可以立即将其变成一个可以走进其中的场景。这引出了一个根本性的人类问题:我们究竟是在分享内容,还是在分享体验?

Project Mariner:计算机使用代理的三层架构

Jaclyn 讲述了 Project Mariner 的演进故事。源于去年 Google I/O 后团队释放了带宽去探索"下一步是什么",答案浮出水面——不仅是回答问题或生成内容的 AI,而是能代表用户采取行动的代理。

Mariner 的第一个版本是去年 12 月发布的 Chrome 扩展,能接管浏览器鼠标进行点击和滚动。用户的反馈非常有趣:"这太酷了——但我能不能重新用我的浏览器?我也想干自己的活儿。" 这直接推动了当前版本的诞生:用户在网页应用中输入任务,任务在后台虚拟机(VM)中运行,用户继续自己的工作。

当前版本的一个巧妙设计是"上下文桥接"——伴侣扩展会看到用户打开的所有标签页。当用户看到某个食谱网站上的鸡肉食谱时,可以直接告诉 Mariner "把这些食材加到我的 Instacart 购物车中",并选择那个打开的标签页——Mariner 会在 VM 中重新访问该网站并使用那个上下文。

Jaclyn 将 Mariner 的未来划分为三个演进维度:代理本身(更好的模型、工具使用、记忆、上下文理解);环境(从本地桌面到 VM,再到在设备后台运行的中间层);生态系统(代理与代理之间的交互,代理如何与外部世界互动)。

从"预定航班"到电商商业模式的颠覆

当被问到计算机使用代理的最佳应用场景时,Jaclyn 坦承"预定航班、订披萨"是常用的默认例子——因为它们易于理解。但她将真正的应用场景描绘为一条光谱:一端是"和我一起做"(do it with me),另一端是"替我做"(do it for me)。

更深刻的洞察在于商业模式层面。当消费者不再因为"懒得完成结账"而放弃购买时——"我的代理会帮我克服那个障碍"——"最佳产品将获胜,而不是最会抓住人类注意力的广告。" 她进一步描绘了一个未来:用户的代理成为一个"通用购物车"——跨所有网站的聚合式购物篮,用户可以慢慢积累待购商品,然后一键完成所有购买。

"当我第一次使用 Mariner 时,"Jaclyn 分享道,"我给它分配了三个不同的任务,然后回到我正在写的文档——那一刻的魔法是,不仅事情在向前推进,而且我不需要再想着它们了。"

NotebookLM:从一个观众开始的新媒体品类

Simon 的开场白带着一种幽默的自嘲。NotebookLM 在去年因音频概述(Audio Overviews)而病毒式传播——两个 AI 主持人像播客一样讨论用户上传的资料。"我们完全没准备好。前几个月基本上是在为生存挣扎——确保 TPU 不完全熔化。"

病毒高潮过后,团队在 2025 年初"重新盘点",回到了一个核心问题:对于 Notebook 用户来说,Notebook 到底是什么?数据显示一个关键模式:用户在 Notebook 中做的是"更长期的项目"——无论是工作中的持续项目还是个人爱好。

这引导了 NotebookLM 的重新定位:赋予用户三种超级能力——① 积累信息(跨时间的信息聚合,利用 Google 底层数据库技术);② 内置智能(从 Gemini 1.5 Pro 到现在的思考模型);③ 信息以适合你情境的形态呈现(播客只是其中一种形态——漫画书、思维导图、短电影都是可能的)。

Simon 用一个生动的例子说明了内容适配(adaptation)的独特价值:一份关于欧洲入侵狼群的 150 页博士论文——"你可以看思维导图,可以花 10-15 分钟听音频概述,但以漫画书的形式呈现——让你立刻抓住整体叙事脉络,这才是真正帮了大忙。"

音频概述的恐怖谷与下一代形态

尽管音频概述取得了巨大成功,Simon 坦率地承认了它的"恐怖谷"(uncanny valley)问题:"我经常用,但时不时会想'这有点奇怪'——他们为什么说了那句话?为什么失去了主线?沉浸感就被打破了。"

修复这"最后一步"看起来好像工作量很小,但实际上需要巨大的工程投入——在底层模型、叙事逻辑、对话动力学等多个维度上进行系统性改进。

Simon 透露,团队正在开发"不同节目类型"——不再是只有一种"两个主持人聊天"的模式。"我们被用户启发了很多。比如很多用户会把自己的 LinkedIn 放进去——为什么?一是听到人谈论你很有趣,二是他们在获取反馈——真正的反馈千金难求。你自己很难看清自己,但听另一个人聊你的优势和待改进领域是极具价值的。"

2025 AI 应用的下一个爆发点与团队预测

对话以预测收尾。Thomas 押注"可再混合的内容"——"你生成一些东西,我拿过来在上面即兴发挥,这种动态将在某个地方爆发。"Jaclyn 选择了"虚拟试穿"(Virtual Try-on)——"它解决了一个实实在在的用户需求,而且是 Google 的强势领域。"Simon 则投给了 Stitch——"对着产品说出你想要的界面设计,它直接给你前端代码——这太酷了。"

三位嘉宾也坦诚地分享了预测失败的经历——"很多次我们感到自己在做一些特别的东西,确实在正确的方向上,但只是太早了。项目暂停、停止,然后过一段时间又重新浮现。"Thomas 谈到他对"Show & Tell"交互理念的坚持——"这让我们远离了'提示词工程',走向了'指令式交互'——我相信这是未来。"