从学术开源到创业成功 —— Databricks 创始人 Ion Stoica

摘要
Ion Stoica是计算机科学领域一个独特的存在:他既是加州大学伯克利分校的教授,也是Databricks和Anyscale两家传奇级公司的联合创始人。在这次对话中,他深入探讨了研究项目如何转化为商业成功——Spark和Ray最初都是为解决实际问题而诞生的学术项目。Spark的源头可以追溯到伯克利RAD Lab的一个关键洞察:随着数据增长速度快于单机处理能力,将数据保存在内存中(而不是写入磁盘)成为解决迭代算法性能瓶颈的核心方案。Databricks从一开始就采用了一种看似大胆的策略——将Spark开源,与可能成为竞争对手的公司建立合作关系,依靠一个核心信念:"如果我们不是Spark最好的产品提供者,那我们活该失败。"如今Databricks面临的AI浪潮带来了新挑战:企业客户需要在自己的VPC(虚拟私有云,Virtual Private Cloud)中运行模型以确保数据安全和合规,这让开源模型具有天然优势。Stoica提出"复合AI"(Compound AI)的概念——未来的应用将由多个组件组合而成,通过精细调优和专有数据可以实现超越单一API调用的效果。他还介绍了伯克利实验室的新项目:vLLM、SGLang、Gorilla等。对创业者,他的建议是:与行业保持紧密联系,让真实问题驱动研究方向。
正文
Spark的诞生:从内存中的意外发现
Spark的起源可以追溯到伯克利RAD Lab的两个平行观察。第一个来自Michael Jordan(机器学习领域的权威学者)的学生团队——他们想参加Netflix的推荐算法竞赛,需要处理大量数据。他们尝试使用Hadoop,但速度极慢。于是他们快速拼凑出了一个将数据保存在内存中的解决方案。
第二个观察来自Stoica的前一家公司Conviva——一家视频分析公司。他们对交互式查询的需求在Hadoop上根本无法实现。同样,将数据保存在内存中成为了解决方案。
Stoica看到了一个明显的趋势:数据增长速度快于处理器和磁盘的速度,单机无法承载;而内存价格持续下降,将中间数据保存在内存中以避免反复读写磁盘,能够为迭代算法带来数量级的性能提升。这就是Spark的核心洞察。
"当我们看到这个趋势时,它几乎是显而易见的。"Stoica回忆道。但"显而易见"并不意味着它缺乏远见——这恰恰是伟大研究能够在工业界产生巨大影响力的原因。
开源与竞争共存:大胆的合作策略
Databricks从创立之初就采取了激进的开放策略:将Spark完全开源,并与所有主要云平台建立合作关系——即使知道这些合作伙伴未来可能成为竞争对手。
"Ion的态度是:'如果我们不是Spark最好的产品提供者,那我们就活该失败。'"Stoica解释道,"你必须信任自己,至少在Spark上,你能构建最好的产品。"
这一策略的精妙之处在于:通过开源和合作最大化Spark的采用率,创造了一个巨大的市场空间。如果Spark获胜,Databricks获胜——因为Databricks总是Spark的最佳产品化版本。这不是赌Spark会不会赢,而是赌自己能持续保持产品优势。最终,Spark确实成为了大数据处理的事实标准。
从Hadoop到Spark:代际转换
Hadoop的MapReduce模型虽然开创了分布式数据处理的时代,但它将每次计算的中间结果写入磁盘的设计,使得迭代算法(在机器学习和交互式查询中极为常见)的执行速度受到严重制约。Spark通过弹性分布式数据集(RDD,Resilient Distributed Dataset)模型将数据保存在集群的内存中,使得迭代速度提升10-100倍。
更重要的是,Spark提供了比MapReduce更丰富的编程抽象(如DataFrame和SQL接口),大大降低了分布式编程的门槛。这使数据工程师和数据科学家能够在同一平台上协作。
Ray:从强化学习到通用分布式计算
Ray的诞生同样是问题驱动的。Stoica在伯克利的RISE Lab注意到,强化学习(Reinforcement Learning)和新兴的AI工作负载(当时的AlphaGo引发的好奇心)需要一种不同于Spark的计算模型——Spark的设计面向批处理和迭代式算法,但强化学习需要实时反馈、毫秒级延迟和高度的动态性。
Ray从一种具体需求出发,演变成一个通用的分布式计算框架(Distributed Computing Framework),能够支持从训练到服务(Serving)的完整AI工作流。当Stoica和团队看到企业客户对Ray的强烈兴趣时,Anyscale应运而生——将Ray产品化,服务于需要分布式训练和推理的企业。
AI时代的Databricks:开源模型的优势
Stoica对AI在Databricks中的定位有清醒的认识。他认为企业级AI的核心差异化在于数据——"你能做的、别人不能做的,就是利用你自己的专有数据(Proprietary Data)。"企业拥有关于其业务和用户的独特数据,通过微调(Fine-tuning)或检索增强生成(RAG,Retrieval-Augmented Generation)将这些数据整合进AI应用中。
更关键的是,企业需要在自有VPC中运行模型——确保数据留在企业的安全边界内,符合GDPR(通用数据保护条例,General Data Protection Regulation)、加州消费者隐私法案等日益严苛的法规要求。这为开源模型提供了天然优势:企业可以在完全受控的环境中使用和定制模型。
Stoica的论点是:当开源模型在关键企业用例上追平甚至超越闭源模型时(不一定要在所有用例上都领先),企业将自然偏好更可控、更安全的开源方案。他相信这一天已经或即将到来。
复合AI:超越单一API调用
Stoica提出了"复合AI"(Compound AI)的概念——未来的AI应用不是对大语言模型的单一API调用(API Call),而是由多个组件组合而成的复杂系统。例如,一个编程辅助工具可能结合专门微调的模型、检索系统、编译器反馈、测试执行器等。
在这种架构中,通过组合多个专业组件并利用企业专有数据进行优化,可以在特定场景下实现超越GPT-4等通用模型的效果。"这不再是'哪个模型最强'的问题,而是'我的数据加我的系统组合是否能产生更好的结果'。"
新一波研究项目
Stoica的实验室仍在持续产出影响力巨大的开源项目:
vLLM:高性能大语言模型推理引擎,通过PagedAttention等创新技术大幅提升吞吐量和显存效率。
SGLang:用于结构化生成的编程语言和运行时,使得构建复杂的LLM应用更加高效和可组合。
Gorilla:面向API调用的LLM,能够准确选择和调用数千种API——这是一个在AI代理(AI Agent)时代极为重要的能力。
VM GPT和LMSYS:在AI系统领域进行前沿探索。LMSYS的Chatbot Arena已经成为业界评估模型性能的重要基准。
从学术到创业:保持与行业的紧密连接
Stoica强调,他所有的研究项目都从一开始就与行业保持紧密连接。RAD Lab和RISE Lab定期举办行业撤退会(Retreat),邀请来自大型互联网公司、金融和医疗机构的从业者参加。这些活动不仅是技术展示,更是问题发现的渠道——"你开始看到问题,然后尝试使用现有工具,发现它们不够好,这就是新研究的起点。"
这种"先理解问题再创造解决方案"的模式,与"先有技术再寻找应用场景"的纯学术路径截然不同。它解释了为什么Stoica的实验室能持续产出既具有学术深度又具有实际影响力的项目。
Stoica对创业者的核心建议简单而有力:与行业保持紧密联系;让真实世界的需求驱动你的方向;如果你确信自己能在一个开放生态中成为最佳——那就勇敢地开源,因为你最终会赢。