OpenAI Sora 2 团队:生成式视频将如何释放创造力与世界模型

cover>

摘要

本期节目中,OpenAI Sora团队的三位核心成员——Bill Peebles(Sora负责人)、Thomas Dimpson(工程主管)和Rohan Sahai(产品主管)——分享了他们从Sora 1到Sora 2的技术跃迁及产品哲学。对话从扩散Transformer(Diffusion Transformer, DiT)的技术原理出发,深入探讨了时空令牌(Space-Time Tokens)如何催生物体恒存性(Object Permanence)等涌现能力,以及模型如何通过大规模预训练内化物理定律。团队将Sora 2定位为视频领域的"GPT-3.5时刻"——一个从研究突破到大众可用的转折点。他们详细讲述了Sora App从7月4日启动到登顶应用商店的疯狂冲刺,以及Cameo功能和Remix机制如何让AI视频创作前所未有地社交化、人性化。对话还延伸至推荐算法设计哲学、创意民主化、IP权利方合作模式,以及视频世界模型通往科学发现甚至"数字分身"的长期愿景。

正文

扩散Transformer:从像素到时空令牌

作为扩散Transformer(DiT)的发明者,Bill Peebles解释了这一技术如何成为当今视频生成模型的主流架构。"大多数人对自回归Transformer(Auto-Regressive Transformer)比较熟悉——逐token生成,基于历史预测未来。扩散模型则不同:你给视频添加大量噪声,然后训练神经网络预测所添加的噪声。" 与自回归生成不同,扩散模型通过逐步去噪来生成内容,一次性地生成整个视频。

关键创新在于将数据表示为时空令牌(Space-Time Tokens)——"一个同时包含X、Y空间维度和时间维度的小立方体"。这种表示让注意力机制能够在整个视频中进行全局信息传递。"当这些时空小块之间可以互相'对话'时,物体恒存性(Object Permanence)这样的属性就会自然涌现——因为网络对视频中每一位置、每一时刻发生的事情都有全局上下文意识。"

Sora 1到2:不只是扩大规模

当被问及Sora 2是否纯粹是规模扩大的结果时,Bill给出了耐人寻味的回答。虽然规模确实驱动了智能体(Agent)行为的涌现——"就像Sora 1中物体恒存性在达到某个关键计算阈值后开始出现一样,现在我们在更高的算力水平上看到智能体行为变得更加智能"——但Sora 2展现了一种前所未有的失败模式。

"如果一个篮球运动员在Sora 2中投篮,他如果投丢了,Sora不会像以前的模型那样'魔法般地'把球引导进球框以迎合用户提示。相反,它会尊重物理定律——球会从篮板弹开。这是模型失败与智能体失败之间的有趣区别。以前的视频模型从未出现过这种独特的语义失败案例。"

这种物理一致性的提升带来了从视频生成到世界模拟器(World Simulator)的质变。Bill预测:"你不需要湿实验室(Wet Lab)来做生物实验——未来可以在Sora内部运行。当然,这需要达到类似GPT-4级别的突破才能可靠地应用于科学领域。"

从研究到产品:一场疯狂的冲刺

Sora App的诞生故事堪称传奇。Thomas回忆道:"大约7月4日开始,我们锁定了目标。先从最基础的功能做起——全屏视频、音频、快速生成。" 团队内部发现的第一个"神奇时刻"是Cameo功能:用户上传自拍后可以让自己出现在任何视频场景中。

Rohan描述了这个功能如何引爆了团队内部的产品市场匹配:"一旦Cameo上线,整个Feed就全都是Cameo了。一周后我们想:'这太好笑了。两周后我们还在刷Cameo——这不对劲,真的有什么东西在这里。'" 这种"人性化"效果是传统AI视频缺乏的——"大多数AI视频是美丽的静态场景,但Cameo带来了真人触感。"

目前Sora每天约有700万次视频生成。用户的多样性出乎团队意料——"不只是Twitter上的AI圈人士,而是来自各个年龄段的庞大人群。登上App Store榜首确实帮助触达了更广泛的受众。"

推荐算法哲学:从Instagram到Sora

Thomas分享了他在Instagram设计推荐算法的经验教训。Instagram转向算法推荐的根本原因是解决"内容权力法则"问题:按时间排序时,高频发布者(如国家地理账号每天发20条)会完全淹没朋友的偶尔更新。"这不是一个随机决定——你必须在时间线上重新排列内容,否则用户永远看不到真正关心的人的帖子。"

但在Sora,核心理念完全不同:"这里每个人都是创作者——这是我们有史以来最根本的差异。我们的优化目标是激发创作,而非盲目的消费。" 数据显示,95%以上的用户在首日就会创作内容;70%的回访包含创作行为;30%的用户甚至公开发布到Feed。Sora App还故意植入了"反赌场设计"——多种方式将用户从无尽滑动中推出,引导进入创作模式。

IP、长视频与世界模型的终极愿景

团队正在积极与IP版权方合作,探索新的经济模型:"如果你想把喜欢的电影角色做成Cameo,应该可以做到,同时收益回流给版权方。我们正在从零开始构建这个全新经济。"

对于长视频(Feature Film)的展望,Rohan认为未来可能出现一种全新媒介,而非传统电影的AI版本。"据说摄影机诞生时,人们做的第一件事是录制戏剧——这是你能想到的最无聊的用法。我们可能正处于类似的早期阶段。" Bill则设想了更宏大的场景:Sora App最终将演变成一个运行在手机上的"迷你替代现实"——每个人拥有自己的数字分身(Digital Clone),它们可以在虚拟世界中相互交互、执行知识工作。

回到技术极限,团队对"模拟一切"的边界展开讨论。"Sora能否最终模拟一个GPU集群?可能存在明确的物理限制——在一个系统内运行的计算量不可能超过驱动它的计算量。但通过迭代部署,我们希望与社会共同进化这项技术,而不是在某个重大突破时向世界投下'炸弹'。"


注:本文基于Sequoia Capital访谈节目内容编译整理。