生成式媒体的崛起：fal押注视频、基础设施与速度

cover Sequoia Capital · 2025-12-10🎬 在 YouTube 观看原视频 →>

摘要

视频占据了互联网80%以上的带宽，但生成式视频这一领域却长期被低估。fal团队——一支由22岁的编译器天才Burkay和联合创始人Gorkem领导的年轻队伍——早在三年前就做出了高确信度的押注。如今，fal已成为开发者访问600多种生成式媒体模型的核心平台，从OpenAI的Sora到Google的Veo，从开源Stable Diffusion到各类小众微调模型，一应俱全。本期对话深入探讨了视频模型与LLM（大语言模型）在推理优化上的根本差异：LLM受限于内存带宽，而视频扩散模型则完全受限于计算能力。fal自研的推理引擎通过追踪编译器和模板化内核，在所有基准测试中保持领先地位。文章还揭示了一个惊人的行业数据：顶级视频模型的半衰期仅为30天，这意味着模型排行榜每季度就会彻底洗牌。在应用层面，从AI原生工作室到个性化教育、从好莱坞特效到程序化广告，生成式媒体的生态正在以超乎预期的速度扩张。fal团队预言，一年内将出现完全由AI生成的短片电影，而视频模型的压缩架构突破将是下一个关键转折点。

正文

一、被低估的赛道：为什么没人做生成式视频？

fal联合创始人Burkay Gorkem和Batuhan的开场直指核心问题：为什么专注于生成式视频基础设施的公司如此稀少？他们给出了两个原因。

第一，三年前生成式视频缺乏明确的行业用例。不像AI编程有清晰的自动化软件开发场景，也不像LLM有搜索、客服等变现路径，早期的图像和视频模型更像是"玩具"。第二，研究端的投入远不及LLM领域。但当DALL·E 2和ChatGPT相继问世后，fal团队敏锐地注意到了一些早期客户正在以惊人速度增长。

"大家都过度聚焦于语言模型，AGI的叙事吸引了所有的资金和人才，"Burkay回忆道，"而我们手头有一个增长迅速的小众市场，我们对自己说：别告诉任何人。"几个月后，OpenAI发布了Sora，验证了团队的远见。他们还率先提出了"生成式媒体平台"（Generative Media Platform）的定位，比行业主流认知提前了数月。

fal团队有一位成员年仅22岁就已经是Python语言的核心维护者之一，从14岁开始编写编译器。这种深度的技术积累，让他们在面对600多种模型同时运行的挑战时游刃有余。

二、视频模型 vs LLM：完全不同的优化哲学

Burkay用清晰的对比解释了视频模型与LLM在推理优化上的根本差异。在LLM推理中，瓶颈在于内存带宽——需要将数千亿参数的权重从高带宽内存（HBM）搬运到SRAM，每次预测下一个token都要重复这个过程。而扩散模型（Diffusion Model）在去噪时需要同时对成千上万个token做注意力计算，这意味着GPU的计算单元被完全饱和。

用一个直观的量化对比：假设一次200 token的LLM输入为1x单位计算量，一张图像的生成约为100x，一段5秒、24帧的视频则约为10,000x——这是LLM单次推理的一万倍。如果上升到4K分辨率，差距还会再扩大10倍。

正是这种计算密集型特征，让fal能够建立起技术护城河。他们开发了一套追踪编译器推理引擎，通过追踪模型执行过程来识别可优化的通用模式，然后用专门的模板化内核替换。这使他们能够在所有基准测试中保持性能领先。fal的核心团队将10%的人力完全投入内核编写，目标是做到95%的通用优化，再针对每种模型进行微调。

当市场还在热衷于LLM的Tokens Per Second竞赛时，fal选择了一条少有人走的路。Burkay坦言："没有人像我们这样关心生成式媒体。Nvidia和其他推理服务商都在追逐LLM，我们的竞争对手离我们至少有3到6个月的差距。"

三、分布式超级计算：管理35个数据中心的艺术

如果说推理引擎是fal的大脑，分布式基础设施就是其骨骼。fal目前管理着分布在35个数据中心的异构GPU集群，每个数据中心拥有不同的硬件规格和网络条件。难点在于要将这些分散的算力当作一个同构集群来调度——他们称之为"分布式超级计算"（Distributed Supercomputing）。

团队从零构建了自己的编排器、CDN（内容分发网络）以及对等互联网络。当用户发送请求时，系统自动将流量路由到最近的、缓存预热的GPU。在实时视频生成场景中，延迟优化尤为关键——从全局分布式GPU集群中选择最优运行节点，将请求路由延迟降至毫秒级。

一个关键论断是：即使是超大规模云服务商（Hyperscaler），在推理优化这个新兴领域也并无先天优势。GPU的需求增长模式与传统数据中心截然不同，甚至微软这样的巨头也开始向NeoCloud采购GPU。fal作为灵活的私有公司，在定价上比云厂商便宜2到3倍，且能够更快地适配新型硬件（如B200）。

四、30天半衰期：模型世界的残酷竞争

fal平台上最令人震撼的数据是：排名前五的视频模型半衰期仅为30天。这意味着，每隔一个月，最受欢迎的模型列表就会发生显著变化。

平台上同时活跃着约50种模型，但长尾极其深厚——前100名客户平均使用14种不同模型，这些模型往往以链条方式组合：文本到图像模型生成初始画面，升频模型提高分辨率，图像到视频模型生成动态效果。这种多模型编排的工作流与开源社区的繁荣互为因果。

开源视频模型生态之所以比文本模型更活跃，Burkay和Gorkem将其归结为两个原因。其一，Stable Diffusion开创了先河，其团队后来创立的Black Forest Labs也延续了开源策略，深刻影响了整个行业。其二，视觉领域的可定制性远高于语言领域——一个小幅微调就能显著改变输出风格，控制网络（ControlNet）、LoRA适配器等工具让开发者可以精确控制美学方向。相比之下，LLM的微调往往难以察觉差异。

模型个性也是分层需求的重要维度：Kling擅长视觉特效，Flux以细腻纹理著称，Midjourney则定义了"艺术感"的审美空间。fal的市场定位恰好满足了这种多模型、快速切换的需求。

五、从工作室到好莱坞：谁在使用生成式视频？

在应用层面，fal的客户图谱覆盖了令人惊讶的广度。AI原生工作室正在崛起：Lens被称为"生成式视频圣经应用"，以高质量动画讲述圣经故事，已在App Store排名靠前。教育领域同样潜力巨大——通过视频模型将概念压缩为15秒的可视化内容，远比10,000字的文字更具传播力。

广告是另一个核心赛道，分为三个层次：UGC（用户生成内容）风格的AI代言人广告、高制作水准的品牌广告（如可口可乐近期的AI广告），以及程序化个性化广告——让消费者本人出现在广告中。传统设计工具也在积极整合：Canva和Adobe都是fal的公开客户。

在好莱坞方面，变化正在加速。前梦工厂CEO Jeffrey Katzenberg在fal的首届生成式媒体大会上做了一个类比：AI带来的变革正如当年计算机图形学冲击手绘动画——人们最初拼命抵制，但技术终将向前，"你要么参与其中，要么被淘汰"。fal团队观察到，2025年夏季以来，传统IP持有者（如迪士尼、任天堂等）开始认真对待AI，它们拥有故事叙述和电影制作的专业知识、大规模预算以及被市场验证的IP资产，短期内仍处于有利位置。

六、实时交互与未来展望

视频模型的下一阶段是实时生成。fal已经将语音到语音模型的低延迟优化经验应用于视频领域，使模型能够在用户输入文字的同时流式生成画面。在GPU层面，Burkay预测架构需要根本性革新——视频空间的压缩率需要从当前的4倍提升到24倍甚至更高，才能实现4K实时视频生成。

对于完全由AI生成的长篇电影，团队给出了激进的预测：一年内将出现20分钟以内的AI短片，而且无需真人拍摄。但Gorkem认为动画类型（而非照片级写实）可能更早突破——因为拍摄真实影像的成本已经很低，真正昂贵的是那些超越现实的视觉特效。

在教育和游戏领域，fal团队看到了更深远的影响。实时生成的互动视频游戏——"文本到游戏"作为"文本到视频"的延续——可能在未来几年成为现实。而教育领域一旦解决了模型质量的可靠性问题，将彻底释放个性化学习的潜力。

fal的故事揭示了一个重要趋势：当整个行业都在追逐LLM时，那些敢于在"被低估赛道"上深耕的技术团队，正在悄然建立自己的统治地位。生成式媒体的半衰期很短，但基础设施的价值只会随时间增长。