如何将 AI 应用推理扩展 100 倍：Fireworks 林桥的推理优化之道

cover Sequoia Capital · 2025-05-19🎬 在 YouTube 观看原视频 →>

摘要

Fireworks 联合创始人林桥（Lin Qiao）在这场演讲中系统阐述了她对"推理的未来"的愿景。她从应用开发者的视角出发，将产品构建到规模化部署的完整路径抽象为一个多阶段的"对齐"（alignment）过程——从产品设计对齐用户行为，到推理系统对齐产品设计，再到训练数据分布对齐应用工作负载。

林桥的核心命题是：推理的未来不在于孤立地优化推理本身，而在于将后训练（post-training）与推理进行协同优化（co-optimization），从而将推理成本降低 10 到 100 倍。她指出这是一道在质量、速度和并发（成本）三个维度上的组合优化问题——仅参数组合就超过 10 万种，难度极高，但 Fireworks 已建立了一套完整的虚拟云基础设施来自动化解决这个问题。

正文

从应用到推理：一个多层次的对齐问题

林桥以一个简洁的框架开场：每一位应用开发者本质上都在进行一个大规模的"对齐"过程。这个过程分为多个阶段——你需要优化用户行为、让产品设计与用户行为对齐、然后让推理系统与产品设计对齐。最后也最关键的一步，是让模型训练数据的分布与你的应用工作负载对齐。

"推理的未来缩放定律，"林桥断言，"是在质量、速度和用户并发（即成本）三个维度上展开的。"她描绘了一个典型场景：初创公司或企业找上门来，要求同时实现 OpenAI 级别的质量、光速般的延时，以及类似欺诈检测系统那样的高并发。这本质上是一个针对特定应用的多维优化问题。

冰山效应：推理成本降低 100 倍后的市场

林桥用"冰山"来比喻当前格局：推理成本的水位线非常高，大量有产品市场匹配（Product-Market Fit, PMF）的潜在应用因为成本过高而无法形成可持续的商业模式。当推理成本被压低到原来的十分之一甚至百分之一时，水位线下方的巨大冰山将浮出水面，可规模化的应用体量将成倍增长。

解决这个问题的关键在于不应该孤立地看待推理，而是将后训练和推理进行协同优化。"这就是创新和加速的核心驱动力，"林桥强调。

组合爆炸难题：超过 10 万种参数组合

林桥坦率地指出这个优化问题的难度。需要考虑的要素极其庞杂：不想每次只预测一个 token，而是要一次预测 10 个；需要将数值精度（numerics）对齐到应用数据的分布；需要在不同硬件之间做选择——有些 GPU 浮点运算能力强，有些显存带宽高，各适合不同形态的应用；需要根据应用分布做模型分片（sharding）、跨主机分布式推理、最优内核（kernel）选择，以及各种面向质量的调优机制。

所有这些因素组合起来，"可以产生超过 10 万种备选方案供挑选，这是一个非常困难的问题。"

Fireworks 的解决方案：端到端的自动化推理平台

面对这种组合爆炸，Fireworks 的策略是将复杂性下沉到基础设施层。林桥展示了一个分层架构：

底层是虚拟云基础设施，承担跨 GPU 资源管理、硬件质量与可靠性保障的复杂性，让应用开发者无需关心"在哪里找 GPU"。

硬件层覆盖多个硬件厂商的不同 SKU——高浮点算力的硬件和/或高显存带宽的硬件，针对不同形态的应用匹配最优方案。

模型层提供丰富的开源模型库（open model library），开发者可以自由选择并根据应用需求进行定制——包括速度优化调优、质量优化调优，以及即将推出的基于生产数据的强化学习调优（reinforcement tuning），让模型持续向应用需求进化。

顶层是面向开发者的简单 API——简单到可以掩盖背后所有的自动调优（auto-tuning）和自动化复杂性。林桥引用了一个来自她 PyTorch 时代的核心理念："简单性能规模化"（Simplicity scales）。

规模化案例：从一家店到一千家店

林桥分享了两个令人印象深刻的客户规模化故事。一家食品连锁公司（food chain company）使用 Fireworks 的服务，在三个月内将 AI 功能从一家门店扩展到一千家门店。一家软件开发公司则在三个月内将 AI 功能的用户规模从 10 万开发者扩展到 2500 万开发者。

林桥表示，这种快速扩展的态势正是 Fireworks 致力于确保的——在客户规模化过程中，帮助他们持续找到质量、成本和速度三个维度上的最优平衡点。