Decart 创始人 Dean Leitersdorf：AI 生成的视频游戏与虚拟世界

cover Sequoia Capital · 2024-11-13🎬 在 YouTube 观看原视频 →>

摘要

Decart 正在构建一项颠覆性的技术：用 AI 完全替代传统游戏引擎。他们的首个产品 Oasis 是世界上第一个能够实时运行并响应用户操作的视频模型——玩家可以在 AI 生成的世界中自由移动、破坏方块、放置方块，而底层没有任何传统游戏引擎代码。

创始人 Dean Leitersdorf 年仅 23 岁就在以色列理工学院（Technion）获得博士学位（这个记录后来被他 21 岁获得博士学位的弟弟打破）。Decart 的雄心远不止于游戏——他们试图解决一个根本性的限制：让计算机能够看见我们所看见的世界，并向我们展示我们能够理解的世界。

Dean 用"魔镜"的比喻来描述他们的愿景：想象一面镜子，你可以跟它说话，让它给你一把剑，剑就出现在镜中你的手上；你可以让周围环境变成《权力的游戏》风格，它就立即变换；你可以跳跃、移动，镜中的世界会实时响应。这就是 Decart 正在构建的未来——将人类的想象力与我们眼前屏幕上的画面连接起来。

Decart 采用了彻底的垂直整合策略，从 CUDA 内核到模型训练再到最终用户体验，每一层都自主优化。他们在 H100 GPU 上实现了实时视频推理（尽管行业普遍认为需要等到 Blackwell 芯片），训练收敛仅需 20 小时（其他顶级实验室需要两周），甚至能在缺少存储设备的 GPU 集群上自行搭建分布式文件系统来继续训练。

正文

Oasis：没有游戏引擎的 AI 游戏

当 Decart 几周前发布 Oasis 时，从技术角度来看，最令人震惊的是：这是第一个真正实时运行且可交互的视频模型。用户可以在游戏中移动、破坏方块、放置方块——所有这些都由 AI 模型实时生成，没有传统的游戏引擎。

但 Dean 强调，Oasis 真正有趣的地方不在于技术本身。"忘掉 Oasis 一号，想想 Oasis 三号，"他说。他让人想象一面魔镜——你可以跟它说话，告诉它你想拿着一把剑，镜中的你就出现了剑；你可以要求把剑变大、变蓝；你可以说"把我变成《权力的游戏》风格"，周围一切就变成了维斯特洛大陆。你可以开始跳跃，镜中的世界实时响应。

"这之所以有趣，是因为这是一种地球上从未有过的体验。它连接了两样东西：我们脑海中所见的，和我们眼睛所能见的。这就是我们的方向——生成式 AI 如何将我们的想象力与屏幕上的画面连接起来。"

克服根本限制，而非解决具体问题

Dean 提出了一个深刻的问题："ChatGPT 解决了什么问题？"答案是：它没有解决任何具体问题——它克服了一个根本性的限制：人类与计算机之间的沟通障碍。计算机说结构化语言，人类说非结构化语言，LLM 弥合了这一鸿沟。

同样，Decart 所做的不仅仅是开发游戏——他们正在克服"计算机能否像人类一样看见和展示世界"这一根本限制。一旦解决了这个问题，就能在上面构建一切：从下一代 Snapchat 或 TikTok，到战斗机飞行员模拟器。

Dean 对比道：99% 的公司在解决具体问题，但每隔十年或十五年，才会出现一个机会去克服某种根本性限制——正如个人电脑（Mac）既不是消费者产品也不是企业产品、既不是硬件公司也不是软件公司，它克服的是"计算"这一根本限制。

全栈垂直整合：从电子到像素

Decart 的核心竞争力在于彻底的全栈垂直整合。Sequoia 合伙人 Shaun Maguire 描述道："这些家伙从电子层面就开始理解——他们懂得电子如何在逻辑门中移动，甚至在汇编语言以下的层面如何表示，再到 CUDA 内核，一直到像素呈现在你的眼前。他们在每一个层面进行优化。"

这种垂直整合使得 Decart 在 H100 GPU 上实现了实时视频推理——而行业普遍认为这需要等到英伟达的 Blackwell 芯片。"要完成这件事，你必须同时做两件事：改变模型本身的架构和训练方式，以及重写整个系统层——包括抛弃 PyTorch 的垃圾回收器，从头编写 CUDA 内核。"

Dean 解释说，这就像上世纪 90 年代的 CPU 时代——一切不可靠，训练崩溃每隔几小时就发生，节点因为灰尘问题宕机但没有错误提示。而 Decart 建立了一份约 200 页的内部文档，记录了训练过程中可能出错的一切——从硬件故障到由合成数据生成导致网络带宽变化引发的 Python 数据加载器锁定文件丢失。

训练效率的极致：20 小时 vs 两周

Decart 的训练效率令人瞠目。Oasis 一号从开始到收敛仅需 20 小时——而其他顶级 AI 实验室训练类似规模的扩散模型通常需要约两周。这既是系统层优化的结果，也是因为他们能够完成端到端的训练而不会崩溃。

更令人惊讶的是，Decart 能够将 GPU 集群的利用率推到 200%：在训练使用 GPU 的同时，利用集群中仅使用 3% 的 CPU 并行生成合成数据。这在 GPU 云服务商看来是"不可思议的"。

还有一次，他们的 GPU 集群竟然没有安装存储设备。大多数团队在这种情况下根本无法使用 GPU——但 Decart 团队自行搭建了一个迷你的分布式文件系统，在节点的本地 SSD 上运行。"那里有太多需要克服的问题，"Dean 说，"但最终它确实跑起来了。"

像素级 AI vs 传统 3D 引擎

关于 AI 生成的世界应该基于像素还是 3D 模型，Dean 有着清晰的洞察。短期内，纯像素到像素的方案（从键击直接到帧）更加灵活和动态——你可以说"把大象的尾巴改小一点"，它就能立即改变。但长期来看，他认为两种方法会融合：一个 Transformer 模型负责维护游戏状态（类似 LLM 处理状态变化），另一个模型负责将该状态渲染为像素。

"这样你就能同时获得世界模型（一致性）和扩散模型（灵活性）的优势。"

Dean 还提到了一个有趣的现象：Minecraft 社区有人制作了"在 Minecraft 中放入宝可梦"的模组。这反映了人类固有的需求——拥有一个平台，然后改变它。AI 驱动的世界让这种"模改"（modding）变得即时和互动——你不需要写代码，只需要说话就能实现。

垂直整合的战略逻辑

Sequoia 合伙人 Shaun 用谷歌的类比来解释 Decart 的战略。谷歌的真正护城河不是 PageRank 算法（那是一个发表后就迅速被复制的论文），而是 Sergey 和 Larry 在分布式系统和底层系统优化上的深刻洞察——他们用廉价消费级硬件替代昂贵的 Sun 服务器，获得了 10 倍的成本优势。谷歌的前端只是一个简单的白页搜索框，但后端的魔法来自于对底层硬件的极致优化。

"我认为要真正交付那种令人愉悦的'魔镜'体验——一个非常简单的前端——你需要一个绝对疯狂的后端，优化到裸金属层面，"Shaun 说。"如果你不能做到实时，体验就不会好。而我认为，在未来一年内，如果不深入到最底层，没有人能做到实时。"

Dean 补充道："如果你完全端到端地做所有事情，你可以比其他人早一年甚至两年进入市场。这就是关键——技术护城河不会持续太久，你要快速获取技术优势，然后在两年内将其转化为其他类型的护城河。"

新的护城河：TikTok 上的品牌效应

Dean 分享了一个关于 Character.AI 的深刻观察。当 Character.AI 的技术优势仅持续了半年就被 Meta 开源模型追赶后，真正支撑其竞争力的是什么？是 TikTok 上的"品牌网络效应"——你搜索任何竞争对手的角色，看到的都是 Character.AI 的视频，评论区也充斥着 Character.AI 的内容。

"有一种新的、更弱的网络效应形式，我称之为'人们在 TikTok 上怎么谈论你'。"这引发了一个关键问题：这种短期优势能否持续两到三年，直到建立长期护城河？

Dean 的结论是：在这个新市场，我们不一定能拥有十年前的那种护城河。短期靠技术护城河（垂直整合带来的极致性能），长期则需要转化为品牌、分发或其他形式的持久优势。