Decart 创始人 Dean Leitersdorf:AI 生成的视频游戏与虚拟世界

cover>

摘要

Decart 正在构建一项颠覆性的技术:用 AI 完全替代传统游戏引擎。他们的首个产品 Oasis 是世界上第一个能够实时运行并响应用户操作的视频模型——玩家可以在 AI 生成的世界中自由移动、破坏方块、放置方块,而底层没有任何传统游戏引擎代码。

创始人 Dean Leitersdorf 年仅 23 岁就在以色列理工学院(Technion)获得博士学位(这个记录后来被他 21 岁获得博士学位的弟弟打破)。Decart 的雄心远不止于游戏——他们试图解决一个根本性的限制:让计算机能够看见我们所看见的世界,并向我们展示我们能够理解的世界。

Dean 用"魔镜"的比喻来描述他们的愿景:想象一面镜子,你可以跟它说话,让它给你一把剑,剑就出现在镜中你的手上;你可以让周围环境变成《权力的游戏》风格,它就立即变换;你可以跳跃、移动,镜中的世界会实时响应。这就是 Decart 正在构建的未来——将人类的想象力与我们眼前屏幕上的画面连接起来。

Decart 采用了彻底的垂直整合策略,从 CUDA 内核到模型训练再到最终用户体验,每一层都自主优化。他们在 H100 GPU 上实现了实时视频推理(尽管行业普遍认为需要等到 Blackwell 芯片),训练收敛仅需 20 小时(其他顶级实验室需要两周),甚至能在缺少存储设备的 GPU 集群上自行搭建分布式文件系统来继续训练。

正文

Oasis:没有游戏引擎的 AI 游戏

当 Decart 几周前发布 Oasis 时,从技术角度来看,最令人震惊的是:这是第一个真正实时运行且可交互的视频模型。用户可以在游戏中移动、破坏方块、放置方块——所有这些都由 AI 模型实时生成,没有传统的游戏引擎。

但 Dean 强调,Oasis 真正有趣的地方不在于技术本身。"忘掉 Oasis 一号,想想 Oasis 三号,"他说。他让人想象一面魔镜——你可以跟它说话,告诉它你想拿着一把剑,镜中的你就出现了剑;你可以要求把剑变大、变蓝;你可以说"把我变成《权力的游戏》风格",周围一切就变成了维斯特洛大陆。你可以开始跳跃,镜中的世界实时响应。

"这之所以有趣,是因为这是一种地球上从未有过的体验。它连接了两样东西:我们脑海中所见的,和我们眼睛所能见的。这就是我们的方向——生成式 AI 如何将我们的想象力与屏幕上的画面连接起来。"

克服根本限制,而非解决具体问题

Dean 提出了一个深刻的问题:"ChatGPT 解决了什么问题?"答案是:它没有解决任何具体问题——它克服了一个根本性的限制:人类与计算机之间的沟通障碍。计算机说结构化语言,人类说非结构化语言,LLM 弥合了这一鸿沟。

同样,Decart 所做的不仅仅是开发游戏——他们正在克服"计算机能否像人类一样看见和展示世界"这一根本限制。一旦解决了这个问题,就能在上面构建一切:从下一代 Snapchat 或 TikTok,到战斗机飞行员模拟器。

Dean 对比道:99% 的公司在解决具体问题,但每隔十年或十五年,才会出现一个机会去克服某种根本性限制——正如个人电脑(Mac)既不是消费者产品也不是企业产品、既不是硬件公司也不是软件公司,它克服的是"计算"这一根本限制。

全栈垂直整合:从电子到像素

Decart 的核心竞争力在于彻底的全栈垂直整合。Sequoia 合伙人 Shaun Maguire 描述道:"这些家伙从电子层面就开始理解——他们懂得电子如何在逻辑门中移动,甚至在汇编语言以下的层面如何表示,再到 CUDA 内核,一直到像素呈现在你的眼前。他们在每一个层面进行优化。"

这种垂直整合使得 Decart 在 H100 GPU 上实现了实时视频推理——而行业普遍认为这需要等到英伟达的 Blackwell 芯片。"要完成这件事,你必须同时做两件事:改变模型本身的架构和训练方式,以及重写整个系统层——包括抛弃 PyTorch 的垃圾回收器,从头编写 CUDA 内核。"

Dean 解释说,这就像上世纪 90 年代的 CPU 时代——一切不可靠,训练崩溃每隔几小时就发生,节点因为灰尘问题宕机但没有错误提示。而 Decart 建立了一份约 200 页的内部文档,记录了训练过程中可能出错的一切——从硬件故障到由合成数据生成导致网络带宽变化引发的 Python 数据加载器锁定文件丢失。

训练效率的极致:20 小时 vs 两周

Decart 的训练效率令人瞠目。Oasis 一号从开始到收敛仅需 20 小时——而其他顶级 AI 实验室训练类似规模的扩散模型通常需要约两周。这既是系统层优化的结果,也是因为他们能够完成端到端的训练而不会崩溃。

更令人惊讶的是,Decart 能够将 GPU 集群的利用率推到 200%:在训练使用 GPU 的同时,利用集群中仅使用 3% 的 CPU 并行生成合成数据。这在 GPU 云服务商看来是"不可思议的"。

还有一次,他们的 GPU 集群竟然没有安装存储设备。大多数团队在这种情况下根本无法使用 GPU——但 Decart 团队自行搭建了一个迷你的分布式文件系统,在节点的本地 SSD 上运行。"那里有太多需要克服的问题,"Dean 说,"但最终它确实跑起来了。"

像素级 AI vs 传统 3D 引擎

关于 AI 生成的世界应该基于像素还是 3D 模型,Dean 有着清晰的洞察。短期内,纯像素到像素的方案(从键击直接到帧)更加灵活和动态——你可以说"把大象的尾巴改小一点",它就能立即改变。但长期来看,他认为两种方法会融合:一个 Transformer 模型负责维护游戏状态(类似 LLM 处理状态变化),另一个模型负责将该状态渲染为像素。

"这样你就能同时获得世界模型(一致性)和扩散模型(灵活性)的优势。"

Dean 还提到了一个有趣的现象:Minecraft 社区有人制作了"在 Minecraft 中放入宝可梦"的模组。这反映了人类固有的需求——拥有一个平台,然后改变它。AI 驱动的世界让这种"模改"(modding)变得即时和互动——你不需要写代码,只需要说话就能实现。

垂直整合的战略逻辑

Sequoia 合伙人 Shaun 用谷歌的类比来解释 Decart 的战略。谷歌的真正护城河不是 PageRank 算法(那是一个发表后就迅速被复制的论文),而是 Sergey 和 Larry 在分布式系统和底层系统优化上的深刻洞察——他们用廉价消费级硬件替代昂贵的 Sun 服务器,获得了 10 倍的成本优势。谷歌的前端只是一个简单的白页搜索框,但后端的魔法来自于对底层硬件的极致优化。

"我认为要真正交付那种令人愉悦的'魔镜'体验——一个非常简单的前端——你需要一个绝对疯狂的后端,优化到裸金属层面,"Shaun 说。"如果你不能做到实时,体验就不会好。而我认为,在未来一年内,如果不深入到最底层,没有人能做到实时。"

Dean 补充道:"如果你完全端到端地做所有事情,你可以比其他人早一年甚至两年进入市场。这就是关键——技术护城河不会持续太久,你要快速获取技术优势,然后在两年内将其转化为其他类型的护城河。"

新的护城河:TikTok 上的品牌效应

Dean 分享了一个关于 Character.AI 的深刻观察。当 Character.AI 的技术优势仅持续了半年就被 Meta 开源模型追赶后,真正支撑其竞争力的是什么?是 TikTok 上的"品牌网络效应"——你搜索任何竞争对手的角色,看到的都是 Character.AI 的视频,评论区也充斥着 Character.AI 的内容。

"有一种新的、更弱的网络效应形式,我称之为'人们在 TikTok 上怎么谈论你'。"这引发了一个关键问题:这种短期优势能否持续两到三年,直到建立长期护城河?

Dean 的结论是:在这个新市场,我们不一定能拥有十年前的那种护城河。短期靠技术护城河(垂直整合带来的极致性能),长期则需要转化为品牌、分发或其他形式的持久优势。