Google Nano Banana:突破角色一致性的技术飞跃

摘要
Google 的 Nano Banana 图像模型以一种深夜诞生的代号征服了全球用户,其核心技术突破在于仅凭单张照片即可实现一致的角色形象生成。在这期节目中,Nano Banana 团队的两位核心成员——Nicole Brtova 和 Hanza Swini Vasan——揭示了这一突破背后的技术秘密。他们详细讨论了高质量数据筛选、长上下文多模态窗口(Long Multimodal Context Window)以及基于真人面孔的内部评估流程(Human Eval)如何共同造就了这项能力。对话还深入探讨了 Google 的多模型策略:从专注单一模态的专用模型(如 Imagen、Veo)向全能 Gemini 基础模型的汇聚路径,以及消费者端与 API 端截然不同的用户行为。最后,团队分享了关于 AI 安全(SynthID 水印)、创作 UI 的未来形态以及创业公司白空间的洞见。
正文
角色一致性:从"看起来像我"到技术突破
Nano Banana 的核心魔力是什么?Nicole 用一个个人故事来阐释。"我上传了一张自拍,然后输入了一个完全虚荣的提示词——'把我放在红毯上'——结果生成的图片真的看起来像我。然后我对比了之前所有的模型,没有一个能真正做到这一点。"
这种"角色一致性"的评估面临一个独特的挑战——你只能在自己熟悉的面孔上判断准确性。因此团队建立了基于团队成员自身面孔的评估流程。"如果你看到 AI 生成的 Sonia,你可能会觉得还行,但 Sonia 自己会立刻发现脸上哪里不对。只有看自己的脸,才能真正判断角色一致性。"
团队发现,这种身份保留能力之所以在很多竞品中缺失,是因为它是一个复杂的技术问题,需要多个维度的协同优化:精准的面部特征理解、跨场景的语义一致性和对身份标识的高保真重建。
技术与工艺:不仅仅是扩大规模
当被问及角色一致性是否"仅仅"是扩大规模的涌现属性时,团队给出了否定的答案。在模型开发的每个阶段都涉及大量的设计决策:数据的选择、质量的把控、细节的关注。Hanza 强调:"这是 AI 中'工艺'的部分——我们很少谈论它,但我认为它极其重要。"
多模态长上下文窗口(Long Multimodal Context Window)是另一个关键因素。模型需要理解用户提供的参考图像,并将其与文本提示中的复杂语义指令相结合。这种跨模态的深度理解能力,使得模型能够在保持面部一致性的同时,根据场景指令进行恰当的服装、姿态、光照等调整。
团队规模反映了这个问题的复杂性:核心建模团队相对精简,但为了在多个产品面上同时发布,涉及的合作团队合计"轻松达到数十人甚至上百人",再加上后台基础设施团队来应对发布后的海量请求。
Gemini 生态:从专用模型到全能模型
Google 的多模态策略呈现一个清晰的演进路径。Nicole 解释说:"我们的北极星目标一直是构建一个可以接收任何模态并转换为任何模态的单一模型。但目前我们还未能完全实现这一点。"
因此,Google 采取了"双轨制":一方面开发专用模型来推动特定模态的前沿——Imagen 专注于图像生成,Veo(VO)专注于视频生成和编辑;另一方面,将这些专用模型中的创新逐步整合回 Gemini 基础模型。"图像总是稍微领先于曲线上,因为只有单帧,训练和推理都更便宜。我预计你在图像中看到的进展,在视频中大约 6 到 12 个月后会跟进。"
这种策略带来了良性循环:专业内容创作者(如电影制作人)用 Veo 进行创作,获得了可立即使用的价值;同时这些"实验场"为全能模型积累了宝贵的技术洞察。
从消费者到 API:两种截然不同的用户行为
Nano Banana 的设计理念明显偏向消费者端——"由于这是一个对话式编辑器(Conversational Editor),我们要求它响应极快。你无法和一个需要一两分钟才能生成图片的模型进行对话。这也是图像模型相对于视频模型的一大优势。"
这种即时性使消费者接受度远超 Google 以往的任何图像模型。但 API 端展现出完全不同的使用图谱:从电影工作室将模型集成到其制作流程的特定环节,到有公司利用模型进行 CAD 设计辅助——"这些都是更垂直、更小众的应用场景,我们通过 API 来覆盖这些长尾需求,而不是为每一种用例都构建一个专用界面。"
用户界面的未来:从聊天到精准操控
团队对下一代用户界面有深入思考。Hanza 描述了一个从"全自动"到"精细操控"的创作光谱:"如果你是设计自己的房子并且真的享受这个过程,你希望亲自玩弄纹理、颜色和空间布局。但如果你是在做项目进度更新,你只需 Gemini 自动拉取会议笔记、关键要点,然后生成一个排版精美的 PPT——你完全不想要介入具体创作过程。"
这正是 AI 工具面临的核心设计挑战:如何在完全自动化的"就帮你搞定一切"和精细可控的"给我每一个创作工具"之间架起桥梁。当前的聊天式界面虽然是一个很好的入口,但对许多专业场景来说并不理想。
AI 安全、水印与下一个战场
作为 Google 产品,安全是绕不开的话题。团队详细介绍了多层防护:可见水印标签表明内容为 Gemini 生成、不可见的 SynthID 嵌入到每个输出中、以及持续的内部外部安全测试。"随着模型能力增强,你总会发现新的攻击向量(Attack Vector),必须持续迭代防护措施。"
关于竞争前景,团队认为两个方向将定义下一个战场:一是模型能力的持续提升——特别是真正的全模态通用生成;二是用户界面的深层重构。"五年或十年后?这个领域感觉就像二十年之后。如果你两年前问我,我会说发展很快;今天再问我,我会说比两年前更快。"
对于创业者,Hanza 指出白空间在于流(Flow)——"传统的幻灯片或文档格式不完全适用于 AI 生成内容。一个能够自然融合视频、图像、文本、音频并允许在自动化和手动控制之间自由切换的工具平台,是巨大的机遇。"
注:本文基于 Sequoia Capital 访谈节目内容编译整理。代码名"Nano Banana"源于深夜 2 点提交时的临时命名,后被意外保留并成为了现象级的品牌标识。