Fireworks 创始人 Lin Qiao：小模型如何民主化 AI 应用场景 | 训练数据

cover Sequoia Capital · 2024-08-13🎬 在 YouTube 观看原视频 →>

摘要

Fireworks AI 创始人兼 CEO Lin Qiao 分享了从领导 PyTorch 到构建生成式 AI 推理平台的非凡旅程。作为 Meta 前 PyTorch 负责人，Lin 曾将 PyTorch 从研究框架打造成支撑全球机器学习生态的基石——日均处理超过 5 万亿次推理请求。她创立的 Fireworks 致力于将这一整套推理与微调栈"从 5 年压缩到 5 周甚至 5 天"，帮助企业以前所未有的速度和低成本将 AI 投入生产。Lin 提出了一个关键市场洞察：训练规模与研究员数量成正比，推理规模与客户数量成正比——而 AI 产品的客户数量最终将远超 AI 研究员。她深入阐述了"小模型策略"为何是企业的正确选择：在开源模型质量快速追赶闭源模型的趋势下，真正的差异化来自针对具体使用场景的定制化微调和极致优化。Lin 还分享了她对 Nvidia 竞争格局、模型商品化、以及"函数调用模型"如何成为连接模型与 API 的关键粘合剂的独到见解。

正文

从 PyTorch 到 Fireworks：简化之道的传承

Lin Qiao 在 Meta 的经历堪称传奇。当她接手 PyTorch 时，Meta 内部实际上有三个不同的深度学习框架：用于移动端的 Caffe2、用于服务端生产的 ONNX、以及用于研究但"过于复杂"的 PyTorch。她的任务是将三个框架统一为一个——这被称为一个"不可能完成的任务"。

最初的方案是一个看似简单的折中：用 PyTorch 的前端 + Caffe2 的后端，把它们"缝合"在一起。但这两个框架从未被设计为协同工作，集成复杂度甚至超过了从零开始构建一个新框架。最终团队做出了一个大胆的决定：保留 PyTorch 优雅简单的 API 设计，但从头重建整个后端。

这就是 PyTorch 1.0（TorchScript）的由来。

"我们本以为替换其他框架只是换个库的事——能有多难？我们估计这是一个六个月的工程。结果证明，要支持 Meta 的全部 AI 工作负载，需要整整五年。"团队不得不从零开始重建整个推理和训练栈——从高效数据加载到分布式推理，再到大规模训练扩展。当 Lin 离开 Meta 时，PyTorch 每天支撑超过 5 万亿次推理。这催生了 Fireworks 的核心使命：将整个行业从 AI 模型到生产部署的时间从五年压缩到五周甚至五天。

Lin 将 PyTorch 的成功归因于一个核心理念：简约即规模（Simplicity scales）。"这是一种永不停歇的对简约的追求——不断让用户体验变得更简单，把更多复杂性隐藏在后端。"这一理念直接延续到了 Fireworks：提供一个极其简单的 API，但背后隐藏着大量的自动化、自调优和复杂性管理。

训练 vs 推理：为什么推理才是更大的市场

Lin 分享了一个她早在创业时就形成的核心洞察：训练规模与研究员数量成正比，推理规模与客户数量成正比。

在 AI 发展初期，大部分注意力集中在训练——更大的模型、更多的参数、更长的训练时间。但随着生成式 AI 的成熟，推理正在成为更大的市场。"如果你有一个面向消费者的 AI 产品，低延迟是生死攸关的——没有人会愿意等半分钟才收到回复。同时，如果你的产品真的有用，用户规模会迅速扩大。如果你在小规模时就在亏钱，规模扩大后只会破产得更快。"

她观察到的客户旅程具有高度一致性：初创公司通常从 OpenAI 开始——因为它提供了最强大的模型来进行实验和产品市场匹配（PMF）探索。但一旦他们找到了 PMF 并需要规模化时，两个痛点同时出现：
1. 延迟太高：消费者应用需要毫秒级响应
2. 成本不可持续：无法在单位经济效益为负的情况下增长

这就是他们转向 Fireworks 的时刻。Fireworks 的优势在于：它不是仅仅提供模型推理，而是通过手写 CUDA 内核、分布式推理、跨 GPU 的解耦推理、语义缓存、以及针对特定使用场景的优化来将延迟和成本降到极致。

小模型的威力：千花齐放 vs 一枝独秀

Lin 对开源与闭源模型的未来有一个清晰的预测：在同一模型大小级别内（例如 7B-70B 乃至 100B 参数），开源模型和闭源模型的质量终将趋同。"这只是一个时间问题——几年后我们回到这个播客来看看谁是对的。"

如果这一趋势成真，那么真正的差异化就不在于模型的原始能力，而在于针对具体使用场景的定制化能力。闭源模型公司（OpenAI、Anthropic 等）聚焦于少数几个模型——他们押注的是"通用性"，追求 AGI。但企业面临的现实是不同的：有成千上万种具体问题需要解决。

"这就是小模型的威力所在。它更容易微调，更容易针对特定问题空间进行优化，更容易实现高质量。它让千花齐放。"

Lin 举了一个具体例子：基于 Llama 3 做函数调用（function calling）微调，比基于 Mixtral 或 Llama 2 容易得多——因为 Llama 3 的基础能力（指令遵循、逻辑推理）已经极其强大。这意味着微调从一个"重新训练"的问题变成了一个"对齐"的问题——成本大幅降低，效果大幅提升。

微调的复杂性：远非"一键完成"

尽管 Lin 是微调的坚定倡导者，她也坦诚地指出了微调的复杂性。"人们觉得微调很简单——只是调一下参数。但实际上，端到端的微调需要企业完成一整套流程：从生产环境中收集数据 → 追踪和分析 → 标注 → 选择微调算法（监督微调、DPO、偏好学习等）→ 决定使用参数高效微调（LoRA）还是全量微调 → 调整超参数……每一个环节都有技术深度，而大多数应用开发者甚至从未接触过 AI。"

更复杂的是，很多"失败案例"其实不是模型的问题，而是产品设计的问题。她举了一个例子：一个 AI 助手在表格中自动生成内容——当光标在某个单元格中时，"自动生成"应该是什么意思？是扩展单元格内容？是生成更多行？还是什么都不做？这本质上是一个 PM 应该思考的产品设计问题，而非模型能力问题。

Fireworks 的愿景是：将所有这些繁琐的技术细节（数据自动标注、微调算法自动选择、超参数自动调优）全部自动化，同时保留产品设计部分给用户——让应用开发者只需要关心"我的产品应该如何响应"，而不是"我应该用什么微调算法"。

函数调用模型：连接一切的粘合剂

Lin 分享了 Fireworks 最令人兴奋的产品方向：函数调用模型（Function Calling Model）。

当前的基础模型无论如何强大，其知识都是有限的——训练数据有截止日期，互联网上可爬取的信息终究有限，大量知识隐藏在 API 和企业私有系统之后。Fireworks 的解决方案是构建一个智能的"路由器"层——一个能够理解可用 API、自动决定调用哪个 API、并以最精确的方式执行调用的模型。

"你可以把它想象成一个更大规模的混合专家模型（Mixture of Experts, MoE）——MoE 有一个路由器坐在几个大专家上面，每个专家专精于自己的领域。我们的愿景是构建一个能访问数百个专家的 MoE——每个专家都更小、更敏捷、但能在特定问题上提供极高质量的输出。"

实际上，Fireworks 已经提供了超过 100 个模型——涵盖语言模型、图像生成、音频生成、视频生成、嵌入模型和多模态模型。函数调用模型将成为协调所有这些模型和外部 API 的"大脑"——让开发者不需要自己搞清楚"我应该用哪个模型、如何微调、如何连接 API"。

竞争格局：Nvidia、OpenAI 与未来架构

关于 Nvidia 的竞争，Lin 的回答是"竞争即将到来"——这既是经济学的必然（任何利润丰厚的市场都会吸引竞争），也是行业趋势（业界天然不喜欢垄断）。她从两个维度分析：在通用 GPU 领域，AMD 正在崛起；在专用 AI 芯片领域，当模型空间趋于稳定、问题定义清晰时，定制化 ASIC 将发挥重要作用。

在模型能力是否即将进入平台期的问题上，Lin 给出了一个微妙的回答：一方面，她认为同一模型规模级别的能力确实会趋向稳定，这意味着优化和定制化的价值将上升；但另一方面，她以 Meta 的经历提醒自己——"我们曾经认为推荐系统排序模型已经稳定了，但几年后发现完全不是这样，模型架构创新在一个看似稳定的空间里重新爆发，将 S 曲线推向了新的高度。在生成式 AI 领域，同样的事情会再次发生。"

至于 OpenAI 是否让她夜不能寐——Lin 的回答是"不"。OpenAI 在追求 AGI，这是一个了不起的使命，但它解决的是一个与企业问题不同的问题。企业有成千上万种具体的、定制化的问题需要解决——这正是小模型和 Fireworks 的核心战场。OpenAI 也在将模型做得越来越小、越来越便宜——这在某种程度上验证了 Lin 的策略方向。

"我认为对于同一模型规模级别，闭源和开源的质量会趋同。真正有意义的事情是推动自动化的、针对具体用户场景和工作负载的定制化——我无法确定 OpenAI 是否有兴趣做这件事。"