生成式媒体的崛起:fal押注视频、基础设施与速度

cover>

摘要

视频占据了互联网80%以上的带宽,但生成式视频这一领域却长期被低估。fal团队——一支由22岁的编译器天才Burkay和联合创始人Gorkem领导的年轻队伍——早在三年前就做出了高确信度的押注。如今,fal已成为开发者访问600多种生成式媒体模型的核心平台,从OpenAI的Sora到Google的Veo,从开源Stable Diffusion到各类小众微调模型,一应俱全。本期对话深入探讨了视频模型与LLM(大语言模型)在推理优化上的根本差异:LLM受限于内存带宽,而视频扩散模型则完全受限于计算能力。fal自研的推理引擎通过追踪编译器和模板化内核,在所有基准测试中保持领先地位。文章还揭示了一个惊人的行业数据:顶级视频模型的半衰期仅为30天,这意味着模型排行榜每季度就会彻底洗牌。在应用层面,从AI原生工作室到个性化教育、从好莱坞特效到程序化广告,生成式媒体的生态正在以超乎预期的速度扩张。fal团队预言,一年内将出现完全由AI生成的短片电影,而视频模型的压缩架构突破将是下一个关键转折点。

正文

一、被低估的赛道:为什么没人做生成式视频?

fal联合创始人Burkay Gorkem和Batuhan的开场直指核心问题:为什么专注于生成式视频基础设施的公司如此稀少?他们给出了两个原因。

第一,三年前生成式视频缺乏明确的行业用例。不像AI编程有清晰的自动化软件开发场景,也不像LLM有搜索、客服等变现路径,早期的图像和视频模型更像是"玩具"。第二,研究端的投入远不及LLM领域。但当DALL·E 2和ChatGPT相继问世后,fal团队敏锐地注意到了一些早期客户正在以惊人速度增长。

"大家都过度聚焦于语言模型,AGI的叙事吸引了所有的资金和人才,"Burkay回忆道,"而我们手头有一个增长迅速的小众市场,我们对自己说:别告诉任何人。"几个月后,OpenAI发布了Sora,验证了团队的远见。他们还率先提出了"生成式媒体平台"(Generative Media Platform)的定位,比行业主流认知提前了数月。

fal团队有一位成员年仅22岁就已经是Python语言的核心维护者之一,从14岁开始编写编译器。这种深度的技术积累,让他们在面对600多种模型同时运行的挑战时游刃有余。

二、视频模型 vs LLM:完全不同的优化哲学

Burkay用清晰的对比解释了视频模型与LLM在推理优化上的根本差异。在LLM推理中,瓶颈在于内存带宽——需要将数千亿参数的权重从高带宽内存(HBM)搬运到SRAM,每次预测下一个token都要重复这个过程。而扩散模型(Diffusion Model)在去噪时需要同时对成千上万个token做注意力计算,这意味着GPU的计算单元被完全饱和。

用一个直观的量化对比:假设一次200 token的LLM输入为1x单位计算量,一张图像的生成约为100x,一段5秒、24帧的视频则约为10,000x——这是LLM单次推理的一万倍。如果上升到4K分辨率,差距还会再扩大10倍。

正是这种计算密集型特征,让fal能够建立起技术护城河。他们开发了一套追踪编译器推理引擎,通过追踪模型执行过程来识别可优化的通用模式,然后用专门的模板化内核替换。这使他们能够在所有基准测试中保持性能领先。fal的核心团队将10%的人力完全投入内核编写,目标是做到95%的通用优化,再针对每种模型进行微调。

当市场还在热衷于LLM的Tokens Per Second竞赛时,fal选择了一条少有人走的路。Burkay坦言:"没有人像我们这样关心生成式媒体。Nvidia和其他推理服务商都在追逐LLM,我们的竞争对手离我们至少有3到6个月的差距。"

三、分布式超级计算:管理35个数据中心的艺术

如果说推理引擎是fal的大脑,分布式基础设施就是其骨骼。fal目前管理着分布在35个数据中心的异构GPU集群,每个数据中心拥有不同的硬件规格和网络条件。难点在于要将这些分散的算力当作一个同构集群来调度——他们称之为"分布式超级计算"(Distributed Supercomputing)。

团队从零构建了自己的编排器、CDN(内容分发网络)以及对等互联网络。当用户发送请求时,系统自动将流量路由到最近的、缓存预热的GPU。在实时视频生成场景中,延迟优化尤为关键——从全局分布式GPU集群中选择最优运行节点,将请求路由延迟降至毫秒级。

一个关键论断是:即使是超大规模云服务商(Hyperscaler),在推理优化这个新兴领域也并无先天优势。GPU的需求增长模式与传统数据中心截然不同,甚至微软这样的巨头也开始向NeoCloud采购GPU。fal作为灵活的私有公司,在定价上比云厂商便宜2到3倍,且能够更快地适配新型硬件(如B200)。

四、30天半衰期:模型世界的残酷竞争

fal平台上最令人震撼的数据是:排名前五的视频模型半衰期仅为30天。这意味着,每隔一个月,最受欢迎的模型列表就会发生显著变化。

平台上同时活跃着约50种模型,但长尾极其深厚——前100名客户平均使用14种不同模型,这些模型往往以链条方式组合:文本到图像模型生成初始画面,升频模型提高分辨率,图像到视频模型生成动态效果。这种多模型编排的工作流与开源社区的繁荣互为因果。

开源视频模型生态之所以比文本模型更活跃,Burkay和Gorkem将其归结为两个原因。其一,Stable Diffusion开创了先河,其团队后来创立的Black Forest Labs也延续了开源策略,深刻影响了整个行业。其二,视觉领域的可定制性远高于语言领域——一个小幅微调就能显著改变输出风格,控制网络(ControlNet)、LoRA适配器等工具让开发者可以精确控制美学方向。相比之下,LLM的微调往往难以察觉差异。

模型个性也是分层需求的重要维度:Kling擅长视觉特效,Flux以细腻纹理著称,Midjourney则定义了"艺术感"的审美空间。fal的市场定位恰好满足了这种多模型、快速切换的需求。

五、从工作室到好莱坞:谁在使用生成式视频?

在应用层面,fal的客户图谱覆盖了令人惊讶的广度。AI原生工作室正在崛起:Lens被称为"生成式视频圣经应用",以高质量动画讲述圣经故事,已在App Store排名靠前。教育领域同样潜力巨大——通过视频模型将概念压缩为15秒的可视化内容,远比10,000字的文字更具传播力。

广告是另一个核心赛道,分为三个层次:UGC(用户生成内容)风格的AI代言人广告、高制作水准的品牌广告(如可口可乐近期的AI广告),以及程序化个性化广告——让消费者本人出现在广告中。传统设计工具也在积极整合:Canva和Adobe都是fal的公开客户。

在好莱坞方面,变化正在加速。前梦工厂CEO Jeffrey Katzenberg在fal的首届生成式媒体大会上做了一个类比:AI带来的变革正如当年计算机图形学冲击手绘动画——人们最初拼命抵制,但技术终将向前,"你要么参与其中,要么被淘汰"。fal团队观察到,2025年夏季以来,传统IP持有者(如迪士尼、任天堂等)开始认真对待AI,它们拥有故事叙述和电影制作的专业知识、大规模预算以及被市场验证的IP资产,短期内仍处于有利位置。

六、实时交互与未来展望

视频模型的下一阶段是实时生成。fal已经将语音到语音模型的低延迟优化经验应用于视频领域,使模型能够在用户输入文字的同时流式生成画面。在GPU层面,Burkay预测架构需要根本性革新——视频空间的压缩率需要从当前的4倍提升到24倍甚至更高,才能实现4K实时视频生成。

对于完全由AI生成的长篇电影,团队给出了激进的预测:一年内将出现20分钟以内的AI短片,而且无需真人拍摄。但Gorkem认为动画类型(而非照片级写实)可能更早突破——因为拍摄真实影像的成本已经很低,真正昂贵的是那些超越现实的视觉特效。

在教育和游戏领域,fal团队看到了更深远的影响。实时生成的互动视频游戏——"文本到游戏"作为"文本到视频"的延续——可能在未来几年成为现实。而教育领域一旦解决了模型质量的可靠性问题,将彻底释放个性化学习的潜力。


fal的故事揭示了一个重要趋势:当整个行业都在追逐LLM时,那些敢于在"被低估赛道"上深耕的技术团队,正在悄然建立自己的统治地位。生成式媒体的半衰期很短,但基础设施的价值只会随时间增长。