Google Labs 的 0 到 1:Josh Woodward 谈 AI 产品的快速构建

摘要
本期节目邀请了 Google Labs 的负责人 Josh Woodward。Google Labs 是 Google 内部的实验性创新部门,负责从零到一构建全新的 AI 产品,包括广受欢迎的 NotebookLM、AI Studio/Gemini API 以及计算机使用代理 Mariner。Josh 分享了他对 AI 产品构建、创新文化和未来人机交互的深刻见解。
Josh 提出了一个引人注目的观点:"写提示词已经过时了"——他认为未来回顾现在这个时代,人们会惊讶于我们曾经试图在小小的文本框中写下段落级别的提示词。真正的趋势是多模态上下文(Multimodal Context):用户通过拖拽 PDF、图片、语音甚至视频来为模型提供上下文,而不是通过繁琐的文字描述。
Google Labs 的文化是"快速行动"——"从想法到用户手中,50 到 100 天"。Josh 分享了 Labs 独特的运作方式:一个 82 条"未来预测"的文档,小团队像创业公司一样运作,一万周活用户就是值得庆祝的里程碑,以及如何通过保持"一只脚在外部世界、一只脚在 Google DeepMind"来平衡创新与现实。在视频生成领域,Josh 认为我们正处于一个从"几乎可能"到"可能"的转折点,而"品味"(taste)和"真实性"(veracity)将成为 AI 时代最被低估的价值。
正文
为什么提示词正在消亡
Josh 开篇就抛出了一个引人深思的观点:"写提示词已经是老派做法了。"在 Google Labs,工程师们确实在写出漂亮的、多页的提示词,但 Josh 认为对于普通用户来说,这既不现实也不合理。"你必须像一个某种'低语者'(whisperer)一样才能解锁模型的能力——这不是大多数人有时间做的事情。"
真正的趋势是多模态上下文。用户不再需要写长篇提示词,而是可以通过拖入 PDF、上传图片、甚至使用语音来为模型提供所需的上下文。模型热爱上下文——上下文不会消失,但上下文的类型和传递方式正在迅速改变。"你可以通过图片来传达,可以通过'看看这组文档'来传达,你的声音、一段视频——任何一种方式都行。"
这个趋势已经在 NotebookLM 的成功中得到了验证。"把你自己来源的资料放进去,AI 就能紧密地抓住那些东西,然后你就能创造出新的东西"——Josh 将这个模式称为"AI 操纵杆"(AI joystick),用户感觉自己正在操控 AI,而不是被 AI 操控。
Google Labs 的运作模式
Google Labs 的定位独特而清晰:一个"建设者集合"(collection of Builders),致力于从零到一构建人们喜爱的 AI 产品。它吸引了多元化的团队——有在 Google 工作多年的老兵,也有大量的创业公司创始人和前创始人。
Labs 的文化核心是速度。"从想法到用户手中,50 到 100 天"——这是在大型组织中保持创业节奏的关键。另一个文化元素是"大愿景,小起点":在 Google 这样一个拥有数十亿用户产品的环境中,很容易迷失方向。但在 Labs,获得 10000 周活跃用户就值得庆祝——"对于 Google 内部的很多团队来说,他们的仪表盘上根本不统计这么小的数字。"
Josh 特别强调了一个名为"谁在 Labs 中茁壮成长"的文档,其中列出了 16-17 个特征,包括创造力、弱者心态(underdog mindset)和拼搏精神。Labs 刻意寻找那些"被低估"的人——简历上不完美但 GitHub 历史令人印象深刻的人。
在项目选择上,Labs 采用自上而下和自下而上的混合方式。自上而下,团队会思考哪些领域对 Google 具有战略意义——比如软件开发的未来(Google 有数万名开发者)。自下而上,4-5 人的小团队会自主提出想要解决的具体用户问题。
视频生成:从"几乎可能"到"可能"
Josh 对 Google 的视频模型 Veo 2 的前景感到兴奋。"Veo 2 在高质量输出和物理规律方面真正实现了突破——动作、场景……如果你和 AI 电影制作人聊天,他们会问你'精选率'(cherry pick rate)是多少,也就是你需要运行多少次才能挑出满意的结果。对于 Veo 2,我们看到精选率降到了'一次就得到想要的'。"
但他也坦诚地指出了当前的限制:每个 8 秒的视频片段生成成本"高得离谱"。Josh 的应对策略是基于 Paul Graham 的洞见——"你应该构建那些现在还不能完全正常工作、成本也太高的东西,因为它们很快就能工作,成本也会大幅下降。"Labs 正在"为一个视频生成成本将微不足道的未来而建设"。
在 3D 与纯视频的技术路线之争上,Google Labs 两边都下了注。在 3D 侧,他们有一个项目可以从 6 张鞋子照片生成 3D 旋转视图——而当 Veo 2 出现后,只需要 2-3 张照片就能做到同样的事情。在视频侧,他们构建了一个"月球登陆模拟器"原型,让教师可以将学生置身于登月舱中,甚至可以在侧面面板中注入各种紧急情况。
计算机使用与 Mariner
Mariner 是 Google Labs 在 2024 年 12 月发布的计算机使用代理,仅用了 84 天就从想法变成了用户手中的产品。Josh 将其定位为"人机交互未来的探索"——"如果让这些模型控制你的计算机或浏览器会怎样?好的和坏的都会发生。"
与消费端的"帮我订机票"这类场景不同,Josh 认为 Mariner 最有前景的应用可能在企业端。他分享了两个典型的用户反馈:一个是呼叫中心场景——客服通过远程控制用户浏览器来解决问题,Mariner 可以自动化这一过程;另一个是销售团队——完成客户电话后需要更新多个不同系统,Mariner 可以自动完成这些繁琐的后续工作。
Josh 提出了一个框架:"高辛劳(high toil)活动"——那些让你"变得暴躁"的事情,正是 Mariner 可以发挥作用的地方。在产品早期阶段,他建议团队不要盯着仪表盘上的小数字,而是看用户的眼睛:"当你给他们展示东西时,他们眼睛亮了吗?"
当前计算机使用代理面临两个主要挑战:精确的屏幕坐标导航(XY 坐标的像素级控制)以及人机交互的细粒度控制——"我是要花 5 美元还是 5000 美元,我需要知道"——这些 HCI(人机交互,Human-Computer Interaction)层面的研究还处于早期阶段。
AI 的"池塘":2025 年最值得投资的领域
Josh 分享了他对 2025 年 AI 领域最具价值方向的判断。他将技术趋势比作"钓鱼池塘"——你需要选择正确的池塘。
三个主要"池塘":第一,视频——他认为视频正处于临界点,无论是成本曲线还是内容消费方式都将发生巨变。第二,推理和思维模型的智能体——随着 o 系列模型解锁了多步骤推理能力,智能体应用将迎来爆发。第三,编程——"这仍然有点被低估"。他分享了一个个人经历:在一个周末的 28 分钟里,他用 AI 编程工具为四年级的儿子创建了一个家务追踪应用,花费 45 美分——然后全家成了日活用户。
Josh 还提出了几个被低估的领域。"长上下文"(long context)——人们还没有真正理解无限上下文意味着什么。如果 AI 能像配偶之间那样拥有共享上下文(只需一个眼神就知道对方在想什么),这将彻底改变人机交互。"品味"(taste)——在 AI 生成内容泛滥的时代,好的品味和设计将变得更有价值。"真实性"(veracity)——什么才是真实的?这将在 AI 时代变得比今天更加重要。
娱乐的未来:可操控、个性化、实时生成
Josh 描绘了一个令人兴奋的未来图景。首先,娱乐将变得"更加可操控"(more steerable)——你坐在沙发上,不仅可以观看内容,还可以介入并改变故事走向。其次,个性化将达到极致的程度——如果今天的 YouTube 和 TikTok 算法已经了解你的兴趣,想象一个可以直接根据你的偏好微调内容模型的世界。第三,大量内容将是实时生成的——就像十年前创作者阶层的崛起驱动了 YouTube 一样,未来将出现一个"策展人"(curator)阶层,他们与模型合作创造和混搭内容。
他提出了一个尖锐的问题:电影和游戏是否会模糊界限?Josh 认为这是"真实的可能性"。目前电影/视频内容、游戏和 3D 世界构建已经出现了交叉融合的趋势。
闪电问答
- 最喜欢的 AI 应用:Replit 的新代理功能——"非常有趣。28 分钟、45 美分,完成了家务追踪应用。"
- 2025 年将爆发的领域:视频。
- 推荐阅读:《乐高故事》(The LEGO Story)——三代家族企业中,祖父 CEO 力排众议押注乐高积木小方块的故事。"如果你是一个创始人,你的公司可能走向各种不同的方向,你在试图搞清楚——这个故事真的很打动人。"
- 预训练是否碰到天花板:略倾向同意(lean agree),但认为还有东西可挖掘。
- 反共识观点:思考你在公司中构建了什么样的价值观——"你是试图取代和消除人类,还是试图放大人类的创造力?这是一个会持续影响后代的选择。"