从学术开源到创业成功 —— Databricks 创始人 Ion Stoica

cover Sequoia Capital · 2025-01-14🎬 在 YouTube 观看原视频 →>

摘要

Ion Stoica是计算机科学领域一个独特的存在：他既是加州大学伯克利分校的教授，也是Databricks和Anyscale两家传奇级公司的联合创始人。在这次对话中，他深入探讨了研究项目如何转化为商业成功——Spark和Ray最初都是为解决实际问题而诞生的学术项目。Spark的源头可以追溯到伯克利RAD Lab的一个关键洞察：随着数据增长速度快于单机处理能力，将数据保存在内存中（而不是写入磁盘）成为解决迭代算法性能瓶颈的核心方案。Databricks从一开始就采用了一种看似大胆的策略——将Spark开源，与可能成为竞争对手的公司建立合作关系，依靠一个核心信念："如果我们不是Spark最好的产品提供者，那我们活该失败。"如今Databricks面临的AI浪潮带来了新挑战：企业客户需要在自己的VPC（虚拟私有云，Virtual Private Cloud）中运行模型以确保数据安全和合规，这让开源模型具有天然优势。Stoica提出"复合AI"（Compound AI）的概念——未来的应用将由多个组件组合而成，通过精细调优和专有数据可以实现超越单一API调用的效果。他还介绍了伯克利实验室的新项目：vLLM、SGLang、Gorilla等。对创业者，他的建议是：与行业保持紧密联系，让真实问题驱动研究方向。

正文

Spark的诞生：从内存中的意外发现

Spark的起源可以追溯到伯克利RAD Lab的两个平行观察。第一个来自Michael Jordan（机器学习领域的权威学者）的学生团队——他们想参加Netflix的推荐算法竞赛，需要处理大量数据。他们尝试使用Hadoop，但速度极慢。于是他们快速拼凑出了一个将数据保存在内存中的解决方案。

第二个观察来自Stoica的前一家公司Conviva——一家视频分析公司。他们对交互式查询的需求在Hadoop上根本无法实现。同样，将数据保存在内存中成为了解决方案。

Stoica看到了一个明显的趋势：数据增长速度快于处理器和磁盘的速度，单机无法承载；而内存价格持续下降，将中间数据保存在内存中以避免反复读写磁盘，能够为迭代算法带来数量级的性能提升。这就是Spark的核心洞察。

"当我们看到这个趋势时，它几乎是显而易见的。"Stoica回忆道。但"显而易见"并不意味着它缺乏远见——这恰恰是伟大研究能够在工业界产生巨大影响力的原因。

开源与竞争共存：大胆的合作策略

Databricks从创立之初就采取了激进的开放策略：将Spark完全开源，并与所有主要云平台建立合作关系——即使知道这些合作伙伴未来可能成为竞争对手。

"Ion的态度是：'如果我们不是Spark最好的产品提供者，那我们就活该失败。'"Stoica解释道，"你必须信任自己，至少在Spark上，你能构建最好的产品。"

这一策略的精妙之处在于：通过开源和合作最大化Spark的采用率，创造了一个巨大的市场空间。如果Spark获胜，Databricks获胜——因为Databricks总是Spark的最佳产品化版本。这不是赌Spark会不会赢，而是赌自己能持续保持产品优势。最终，Spark确实成为了大数据处理的事实标准。

从Hadoop到Spark：代际转换

Hadoop的MapReduce模型虽然开创了分布式数据处理的时代，但它将每次计算的中间结果写入磁盘的设计，使得迭代算法（在机器学习和交互式查询中极为常见）的执行速度受到严重制约。Spark通过弹性分布式数据集（RDD，Resilient Distributed Dataset）模型将数据保存在集群的内存中，使得迭代速度提升10-100倍。

更重要的是，Spark提供了比MapReduce更丰富的编程抽象（如DataFrame和SQL接口），大大降低了分布式编程的门槛。这使数据工程师和数据科学家能够在同一平台上协作。

Ray：从强化学习到通用分布式计算

Ray的诞生同样是问题驱动的。Stoica在伯克利的RISE Lab注意到，强化学习（Reinforcement Learning）和新兴的AI工作负载（当时的AlphaGo引发的好奇心）需要一种不同于Spark的计算模型——Spark的设计面向批处理和迭代式算法，但强化学习需要实时反馈、毫秒级延迟和高度的动态性。

Ray从一种具体需求出发，演变成一个通用的分布式计算框架（Distributed Computing Framework），能够支持从训练到服务（Serving）的完整AI工作流。当Stoica和团队看到企业客户对Ray的强烈兴趣时，Anyscale应运而生——将Ray产品化，服务于需要分布式训练和推理的企业。

AI时代的Databricks：开源模型的优势

Stoica对AI在Databricks中的定位有清醒的认识。他认为企业级AI的核心差异化在于数据——"你能做的、别人不能做的，就是利用你自己的专有数据（Proprietary Data）。"企业拥有关于其业务和用户的独特数据，通过微调（Fine-tuning）或检索增强生成（RAG，Retrieval-Augmented Generation）将这些数据整合进AI应用中。

更关键的是，企业需要在自有VPC中运行模型——确保数据留在企业的安全边界内，符合GDPR（通用数据保护条例，General Data Protection Regulation）、加州消费者隐私法案等日益严苛的法规要求。这为开源模型提供了天然优势：企业可以在完全受控的环境中使用和定制模型。

Stoica的论点是：当开源模型在关键企业用例上追平甚至超越闭源模型时（不一定要在所有用例上都领先），企业将自然偏好更可控、更安全的开源方案。他相信这一天已经或即将到来。

复合AI：超越单一API调用

Stoica提出了"复合AI"（Compound AI）的概念——未来的AI应用不是对大语言模型的单一API调用（API Call），而是由多个组件组合而成的复杂系统。例如，一个编程辅助工具可能结合专门微调的模型、检索系统、编译器反馈、测试执行器等。

在这种架构中，通过组合多个专业组件并利用企业专有数据进行优化，可以在特定场景下实现超越GPT-4等通用模型的效果。"这不再是'哪个模型最强'的问题，而是'我的数据加我的系统组合是否能产生更好的结果'。"

新一波研究项目

Stoica的实验室仍在持续产出影响力巨大的开源项目：

vLLM：高性能大语言模型推理引擎，通过PagedAttention等创新技术大幅提升吞吐量和显存效率。

SGLang：用于结构化生成的编程语言和运行时，使得构建复杂的LLM应用更加高效和可组合。

Gorilla：面向API调用的LLM，能够准确选择和调用数千种API——这是一个在AI代理（AI Agent）时代极为重要的能力。

VM GPT和LMSYS：在AI系统领域进行前沿探索。LMSYS的Chatbot Arena已经成为业界评估模型性能的重要基准。

从学术到创业：保持与行业的紧密连接

Stoica强调，他所有的研究项目都从一开始就与行业保持紧密连接。RAD Lab和RISE Lab定期举办行业撤退会（Retreat），邀请来自大型互联网公司、金融和医疗机构的从业者参加。这些活动不仅是技术展示，更是问题发现的渠道——"你开始看到问题，然后尝试使用现有工具，发现它们不够好，这就是新研究的起点。"

这种"先理解问题再创造解决方案"的模式，与"先有技术再寻找应用场景"的纯学术路径截然不同。它解释了为什么Stoica的实验室能持续产出既具有学术深度又具有实际影响力的项目。

Stoica对创业者的核心建议简单而有力：与行业保持紧密联系；让真实世界的需求驱动你的方向；如果你确信自己能在一个开放生态中成为最佳——那就勇敢地开源，因为你最终会赢。