开源 AI 会超越闭源模型吗？Olama、Fireworks 与 Open Router 圆桌对话

cover Sequoia Capital · 2025-05-12🎬 在 YouTube 观看原视频 →>

摘要

这场圆桌讨论汇集了开源 AI 生态的三位关键推动者——Olama 创始人 Jeffrey Morgan、Fireworks 联合创始人 Dimma 以及 Open Router CEO Alex。在 Jensen Huang 上午发出"繁荣的开源模型生态至关重要"的呼吁后，三位嘉宾围绕开源模型的现状与未来展开了深入讨论。

核心争论点包括：开源模型目前仅占推理 token 总量的 20-30%，处于追赶位置；但开源带来的透明性、可定制性和去中心化优势正在加速缩小差距。DeepSeek R1 的横空出世被反复提及——它不仅是一个优秀的技术突破，更是一个用户体验创新（可视化思维链），加上其服务器无法承受爆炸式需求，意外催生了美国推理服务商的繁荣。

关于未来五年开源与闭源模型的比例，三位嘉宾给出了 50/50 的预测。他们指出，随着行业重心从前训练（pre-training）转向后训练（post-training）和强化学习（RL），开源模型的定制化优势将进一步凸显。去中心化推理基础设施的出现可能成为改变游戏规则的关键变量。

正文

开源模型的现状：占据 20-30% 的推理份额

Open Router CEO Alex 首先用数据勾勒了当前格局：开源模型在推理 token 总量中的占比约为 20-30%，远低于闭源模型。但这不意味着开源处于劣势——恰恰相反，他认为开源模式具备更高的"杠杆率"。

"人类的天才可以来自世界任何角落，"Alex 说，"而将一切集中在少数模型实验室手中是非常冒险的，也不如让天才从任何地方涌现那样具有高杠杆效应。"他的核心论点是：大语言模型（Large Language Models, LLMs）让拥有独特数据和独特智能的人能够按需创造出服务，而开源使得这种可能性最大化。今天那些从小就在边缘设备上思考最先进机器学习（State-of-the-art Machine Learning）的年轻人，未来自然会先做开源再做闭源——因为他们进不了模型实验室，但可以做开源。

实用主义视角：为什么开源模型不可被禁止

Fireworks 的 Dimma 从两个实用角度补充了开源的必要性。首先，许多开源模型部署在非数据中心硬件上——消费者的设备上就有模型在运行。如果模型被禁止，企业如何去阻止消费者访问自己设备上的模型？这就像当年的 Photoshop 或操作系统，消费者终将获得免费使用的能力。

其次，在企业端，客户最看重的是对模型的"所有权"。当企业用自己的数据微调（fine-tune）或蒸馏（distill）模型时，他们希望拥有整个模型的结果，而不是其中的一部分。如果模型被禁止或闭源锁定，客户就无法真正拥有定制化后的成果。Dimma 将其类比为电力——你可以规范电力的应用和分配方式，但不应禁止基础技术本身。

DeepSeek 时刻：一个无法预测的黑天鹅

DeepSeek R1 在今年一月的崛起是全场讨论的焦点。三位嘉宾从不同角度解析了这一现象：

Jeff 认为 DeepSeek 展示了"小团队快速行动"的力量——研究团队深度整合了研究与工程系统，这种敏捷性在大型组织中往往难以实现。

Alex 给出了三个关键因素：第一，这是首个高质量的开源推理模型（reasoning model），填补了市场空白；第二，用户界面（UI）创新——你可以看到模型的思维过程（thoughts）逐步展开，这是 OpenAI o1 所不具备的体验，在社区引发了无数"顿悟时刻"；第三，也是最反直觉的一点——DeepSeek 自己的服务器完全无法承受推理需求，甚至封锁了支付通道，这反而迫使美国公司自行扩展推理能力。Fireworks 抓住机会，在早期阶段承接了大部分推理流量。

Dimma 补充了技术细节：DeepSeek 是首个大规模成功的开源混合专家模型（Mixture of Experts, MoE），这带来了独特的分布式推理挑战——多 GPU、多服务器的协同推理。他还指出，Perplexity 等公司对 R1 进行了后训练（post-tune），去除了某些敏感元素以适配特定商业场景，因为这恰恰说明了一个关键点：在商业应用中，那些在网上引发争议的敏感内容根本不会出现。

Llama 4 的教训与展望

关于 Llama 4 的未来，嘉宾们持"谨慎乐观"态度。Jeff 指出，Llama 4 缺少了以往版本中的"小模型"（Little Llama），而这恰恰是客户最看重的价值主张之一——可用性。DeepSeek 的成功很大程度上得益于其蒸馏模型（distillations）的发布，这让实际采用变得容易。

Dimma 认为 Meta 具备全部成功要素：高层级的承诺、优秀的人才和海量算力。Llama 4 当前版本的一些问题可能与基准测试（benchmarking）有关——他坦言，公开的 LLM 基准评估已接近"峰值"，越来越难以区分模型的真正优劣。奖励黑客（reward hacking）问题需要行业共同改进评估方法。

未来五年：50/50 的预测

三位嘉宾对未来五年开源与闭源模型的推理份额给出了一致的 50/50 预测，但理由各不相同。

Alex 将希望寄托于去中心化推理（decentralized inference）——如果去中心化服务商能够形成可持续的商业模式，将彻底改变竞争格局。他提到有一个去中心化服务商每天赚取 36 万美元的激励，但其可持续性存疑。

Dimma 指出了一个结构性转变：如果 AI 进步仅来自前训练（pre-training），闭源模型将占据优势——只需不断建设万亿美元级的数据中心。但随着行业转向后训练和强化学习，"配方"变得可迁移——你可以用更少的算力，结合独特的数据和问题定义，获得优秀结果。这使得开源比例将整体增长，尽管不会有单一模型占据 50% 以上。

Jeff 则从路由层（routing layer）的角度预测：未来大量工作负载将运行在小模型上，由路由系统在开源和闭源模型之间动态切换（如 Route LLM 和 Stanford 的 Minions 项目），这使得精确的份额划分变得困难，但 50/50 是一个合理的基准估计。