OpenAI Sora 2 团队：生成式视频将如何释放创造力与世界模型

cover Sequoia Capital · 2025-11-06🎬 在 YouTube 观看原视频 →>

摘要

本期节目中，OpenAI Sora团队的三位核心成员——Bill Peebles（Sora负责人）、Thomas Dimpson（工程主管）和Rohan Sahai（产品主管）——分享了他们从Sora 1到Sora 2的技术跃迁及产品哲学。对话从扩散Transformer（Diffusion Transformer, DiT）的技术原理出发，深入探讨了时空令牌（Space-Time Tokens）如何催生物体恒存性（Object Permanence）等涌现能力，以及模型如何通过大规模预训练内化物理定律。团队将Sora 2定位为视频领域的"GPT-3.5时刻"——一个从研究突破到大众可用的转折点。他们详细讲述了Sora App从7月4日启动到登顶应用商店的疯狂冲刺，以及Cameo功能和Remix机制如何让AI视频创作前所未有地社交化、人性化。对话还延伸至推荐算法设计哲学、创意民主化、IP权利方合作模式，以及视频世界模型通往科学发现甚至"数字分身"的长期愿景。

正文

扩散Transformer：从像素到时空令牌

作为扩散Transformer（DiT）的发明者，Bill Peebles解释了这一技术如何成为当今视频生成模型的主流架构。"大多数人对自回归Transformer（Auto-Regressive Transformer）比较熟悉——逐token生成，基于历史预测未来。扩散模型则不同：你给视频添加大量噪声，然后训练神经网络预测所添加的噪声。" 与自回归生成不同，扩散模型通过逐步去噪来生成内容，一次性地生成整个视频。

关键创新在于将数据表示为时空令牌（Space-Time Tokens）——"一个同时包含X、Y空间维度和时间维度的小立方体"。这种表示让注意力机制能够在整个视频中进行全局信息传递。"当这些时空小块之间可以互相'对话'时，物体恒存性（Object Permanence）这样的属性就会自然涌现——因为网络对视频中每一位置、每一时刻发生的事情都有全局上下文意识。"

Sora 1到2：不只是扩大规模

当被问及Sora 2是否纯粹是规模扩大的结果时，Bill给出了耐人寻味的回答。虽然规模确实驱动了智能体（Agent）行为的涌现——"就像Sora 1中物体恒存性在达到某个关键计算阈值后开始出现一样，现在我们在更高的算力水平上看到智能体行为变得更加智能"——但Sora 2展现了一种前所未有的失败模式。

"如果一个篮球运动员在Sora 2中投篮，他如果投丢了，Sora不会像以前的模型那样'魔法般地'把球引导进球框以迎合用户提示。相反，它会尊重物理定律——球会从篮板弹开。这是模型失败与智能体失败之间的有趣区别。以前的视频模型从未出现过这种独特的语义失败案例。"

这种物理一致性的提升带来了从视频生成到世界模拟器（World Simulator）的质变。Bill预测："你不需要湿实验室（Wet Lab）来做生物实验——未来可以在Sora内部运行。当然，这需要达到类似GPT-4级别的突破才能可靠地应用于科学领域。"

从研究到产品：一场疯狂的冲刺

Sora App的诞生故事堪称传奇。Thomas回忆道："大约7月4日开始，我们锁定了目标。先从最基础的功能做起——全屏视频、音频、快速生成。" 团队内部发现的第一个"神奇时刻"是Cameo功能：用户上传自拍后可以让自己出现在任何视频场景中。

Rohan描述了这个功能如何引爆了团队内部的产品市场匹配："一旦Cameo上线，整个Feed就全都是Cameo了。一周后我们想：'这太好笑了。两周后我们还在刷Cameo——这不对劲，真的有什么东西在这里。'" 这种"人性化"效果是传统AI视频缺乏的——"大多数AI视频是美丽的静态场景，但Cameo带来了真人触感。"

目前Sora每天约有700万次视频生成。用户的多样性出乎团队意料——"不只是Twitter上的AI圈人士，而是来自各个年龄段的庞大人群。登上App Store榜首确实帮助触达了更广泛的受众。"

推荐算法哲学：从Instagram到Sora

Thomas分享了他在Instagram设计推荐算法的经验教训。Instagram转向算法推荐的根本原因是解决"内容权力法则"问题：按时间排序时，高频发布者（如国家地理账号每天发20条）会完全淹没朋友的偶尔更新。"这不是一个随机决定——你必须在时间线上重新排列内容，否则用户永远看不到真正关心的人的帖子。"

但在Sora，核心理念完全不同："这里每个人都是创作者——这是我们有史以来最根本的差异。我们的优化目标是激发创作，而非盲目的消费。" 数据显示，95%以上的用户在首日就会创作内容；70%的回访包含创作行为；30%的用户甚至公开发布到Feed。Sora App还故意植入了"反赌场设计"——多种方式将用户从无尽滑动中推出，引导进入创作模式。

IP、长视频与世界模型的终极愿景

团队正在积极与IP版权方合作，探索新的经济模型："如果你想把喜欢的电影角色做成Cameo，应该可以做到，同时收益回流给版权方。我们正在从零开始构建这个全新经济。"

对于长视频（Feature Film）的展望，Rohan认为未来可能出现一种全新媒介，而非传统电影的AI版本。"据说摄影机诞生时，人们做的第一件事是录制戏剧——这是你能想到的最无聊的用法。我们可能正处于类似的早期阶段。" Bill则设想了更宏大的场景：Sora App最终将演变成一个运行在手机上的"迷你替代现实"——每个人拥有自己的数字分身（Digital Clone），它们可以在虚拟世界中相互交互、执行知识工作。

回到技术极限，团队对"模拟一切"的边界展开讨论。"Sora能否最终模拟一个GPU集群？可能存在明确的物理限制——在一个系统内运行的计算量不可能超过驱动它的计算量。但通过迭代部署，我们希望与社会共同进化这项技术，而不是在某个重大突破时向世界投下'炸弹'。"

注：本文基于Sequoia Capital访谈节目内容编译整理。