如何将 AI 应用推理扩展 100 倍:Fireworks 林桥的推理优化之道

cover>

摘要

Fireworks 联合创始人林桥(Lin Qiao)在这场演讲中系统阐述了她对"推理的未来"的愿景。她从应用开发者的视角出发,将产品构建到规模化部署的完整路径抽象为一个多阶段的"对齐"(alignment)过程——从产品设计对齐用户行为,到推理系统对齐产品设计,再到训练数据分布对齐应用工作负载。

林桥的核心命题是:推理的未来不在于孤立地优化推理本身,而在于将后训练(post-training)与推理进行协同优化(co-optimization),从而将推理成本降低 10 到 100 倍。她指出这是一道在质量、速度和并发(成本)三个维度上的组合优化问题——仅参数组合就超过 10 万种,难度极高,但 Fireworks 已建立了一套完整的虚拟云基础设施来自动化解决这个问题。

正文

从应用到推理:一个多层次的对齐问题

林桥以一个简洁的框架开场:每一位应用开发者本质上都在进行一个大规模的"对齐"过程。这个过程分为多个阶段——你需要优化用户行为、让产品设计与用户行为对齐、然后让推理系统与产品设计对齐。最后也最关键的一步,是让模型训练数据的分布与你的应用工作负载对齐。

"推理的未来缩放定律,"林桥断言,"是在质量、速度和用户并发(即成本)三个维度上展开的。"她描绘了一个典型场景:初创公司或企业找上门来,要求同时实现 OpenAI 级别的质量、光速般的延时,以及类似欺诈检测系统那样的高并发。这本质上是一个针对特定应用的多维优化问题。

冰山效应:推理成本降低 100 倍后的市场

林桥用"冰山"来比喻当前格局:推理成本的水位线非常高,大量有产品市场匹配(Product-Market Fit, PMF)的潜在应用因为成本过高而无法形成可持续的商业模式。当推理成本被压低到原来的十分之一甚至百分之一时,水位线下方的巨大冰山将浮出水面,可规模化的应用体量将成倍增长。

解决这个问题的关键在于不应该孤立地看待推理,而是将后训练和推理进行协同优化。"这就是创新和加速的核心驱动力,"林桥强调。

组合爆炸难题:超过 10 万种参数组合

林桥坦率地指出这个优化问题的难度。需要考虑的要素极其庞杂:不想每次只预测一个 token,而是要一次预测 10 个;需要将数值精度(numerics)对齐到应用数据的分布;需要在不同硬件之间做选择——有些 GPU 浮点运算能力强,有些显存带宽高,各适合不同形态的应用;需要根据应用分布做模型分片(sharding)、跨主机分布式推理、最优内核(kernel)选择,以及各种面向质量的调优机制。

所有这些因素组合起来,"可以产生超过 10 万种备选方案供挑选,这是一个非常困难的问题。"

Fireworks 的解决方案:端到端的自动化推理平台

面对这种组合爆炸,Fireworks 的策略是将复杂性下沉到基础设施层。林桥展示了一个分层架构:

底层是虚拟云基础设施,承担跨 GPU 资源管理、硬件质量与可靠性保障的复杂性,让应用开发者无需关心"在哪里找 GPU"。

硬件层覆盖多个硬件厂商的不同 SKU——高浮点算力的硬件和/或高显存带宽的硬件,针对不同形态的应用匹配最优方案。

模型层提供丰富的开源模型库(open model library),开发者可以自由选择并根据应用需求进行定制——包括速度优化调优、质量优化调优,以及即将推出的基于生产数据的强化学习调优(reinforcement tuning),让模型持续向应用需求进化。

顶层是面向开发者的简单 API——简单到可以掩盖背后所有的自动调优(auto-tuning)和自动化复杂性。林桥引用了一个来自她 PyTorch 时代的核心理念:"简单性能规模化"(Simplicity scales)。

规模化案例:从一家店到一千家店

林桥分享了两个令人印象深刻的客户规模化故事。一家食品连锁公司(food chain company)使用 Fireworks 的服务,在三个月内将 AI 功能从一家门店扩展到一千家门店。一家软件开发公司则在三个月内将 AI 功能的用户规模从 10 万开发者扩展到 2500 万开发者。

林桥表示,这种快速扩展的态势正是 Fireworks 致力于确保的——在客户规模化过程中,帮助他们持续找到质量、成本和速度三个维度上的最优平衡点。