将图AI转化为投资回报率:对话Kumo联合创始人Hema Raghavan

摘要
在本期节目中,Kumo AI联合创始人兼工程负责人Hema Raghavan深入探讨了图神经网络(Graph Neural Networks, GNN)如何彻底改变企业从数据中提取价值的方式。Kumo定位在预测型AI领域——将Transformer技术引入结构化数据的预测问题,让企业能够直接在数据仓库中运行自动化机器学习(AutoML)。Hema认为,AutoML的新时代与过去的根本不同在于它建立在GPU之上:图神经网络自动学习表征和特征,消除了手工特征工程的需求,而这恰恰是上一代AutoML和传统机器学习最耗时、最难维护的环节。
Kumo的核心洞察是:几乎所有企业都天然拥有图数据——客户、交易、产品之间通过主键/外键关系天然形成图结构。通过创新的预测查询语言(Predictive Query Language),Kumo让任何懂SQL的分析师都能用简单的"SELECT...PREDICT"语法构建复杂的预测模型,而无需图学习博士学位。Hema分享了她在LinkedIn领导"你可能认识的人"(People You May Know)团队的经历,以及大规模运营AI的挑战——模型退化、行为变化、基础设施扩展。她还讨论了Kumo如何通过与Snowflake和Databricks的深度集成解决数据安全和企业采纳问题,以及图神经网络与大语言模型(LLM)之间的协同效应,特别是在个性化推荐和图检索增强生成(Graph RAG)等应用场景中的互补关系。
正文
AutoML的重生:从CPU时代到GPU时代
Hema首先阐明了Kumo所代表的AutoML与传统AutoML的本质区别。上一代AutoML运行在CPU上,主要使用逻辑回归、XGBoost、SVM等传统算法,本质上只是将数据科学家手工计算特征的工作并行化。这意味着你仍然需要像数据科学家一样思考,编写大量特征代码。"那个时代的AutoML是在试图让机器像人类一样思考。"
而Kumo建立在图神经网络之上,运行在GPU上。GNN可以看作是CNN(用于图像)和序列模型(用于语言)的超集,能够处理任意结构的数据。GNN自动学习所有预测问题所需的特征,消除了手工特征工程。"神经网络中间层自动学习语言的词性、命名实体等属性——这种转变与NLP从手工特征到深度学习的变化如出一辙。"
Hema以YouTube视频推荐为例解释了GNN的工作原理:用户Sonia喜欢AI和宝宝鲨鱼视频,Constantine喜欢AI和历史。GNN在这个"用户-视频-频道"的异构图上学习,能够发现两人在AI内容上的重叠,同时在Sonia观看宝宝鲨鱼视频时不会推荐给Constantine。"图神经网络本质上在学习嵌入表示(Embedding Representations),让相关的实体在某个高维空间中彼此靠近。"
预测查询语言:让图学习民主化
Kumo的另一项核心创新是预测查询语言。历史上面向图的学习一直局限于图学习领域的博士——"这不是人们天然思考世界的方式,因为大家都习惯了关系型数据。"然而,关系型数据与图之间存在一一对应的映射:表即实体(节点),主键/外键关系即边。
Kumo创建了一个看起来很像SQL的抽象层,增加了PREDICT子句。"如果你把数据放在关系型表中,Kumo直接导入——通过连接器指定你的模式,然后就可以开始编写预测查询。"图中自动构建的图结构被抽象掉了,但对于喜欢调参的数据科学家,Kumo也提供Python接口。"我们的比喻是:我们会给你一辆自动驾驶汽车,但如果你想看引擎盖下面或者想开手动挡,我们也让你开。"
这种方法让Kumo能够在四个星期内为客户展示可量化的价值。"大多数公司的数据科学家受KPI驱动——他们承诺了x%的收入增长。我们做一个为期四周的概念验证,几乎总是能在这个时间窗口内展示价值。"一旦数据科学家上手使用产品,他们发现Kumo的工作比手工特征工程有趣得多——他们花更多时间去发现组织内真正有价值的表和正确的业务问题定义。
LinkedIn的AI规模化挑战
Hema分享了她在LinkedIn领导"你可能认识的人"团队的经历。她加入时LinkedIn约有4亿会员,并迅速增长。这支团队的AI工作直接关系到LinkedIn的核心消费者指标——会话数和月活用户数。"我突然发现,作为一个AI研究者,我要为一个核心KPI负责。"
在MLOps这个词出现之前,Hema的团队就在思考AI的运营化问题:如何部署模型、如何衡量、如何A/B测试、如何维护生产中的模型。她观察到模型在生产中会随时间退化——"不是因为图失去节点或边,而是因为用户行为在变化。LinkedIn用户在元旦的行为与暑假期间完全不同。"这催生了自动训练流水线的需求。
大规模运行AI模型也是一个问题。"你不能只是无休止地水平扩展基于CPU的算法。"后来LinkedIn的GNN团队(耗时4-5年、大量工程师)建立了大规模图神经网络基础设施,如今支撑着从广告到信息流到职位推荐等所有产品。
数据仓库原生部署:解决企业采纳难题
Kumo最初采用纯SaaS模式,但很快发现数据科学家需要在自有数据上看到价值才有说服力。然而,将数据移到SaaS产品意味着长达数月的大型安全审查。"我们想降低这个摩擦,所以开始与数据仓库合作,部署模型让计算靠近数据。"
Kumo在Snowflake中通过Snowpark容器服务以原生应用形式部署——数据科学家只需"点击安装",就像在iPhone上安装应用一样。在Databricks中,Kumo管理GPU计算,但数据完全留在Databricks内部。"安全团队完全接受,因为没有任何数据离开生态。这也让我们不必操心安全、合规、治理——让数据仓库继续管理数据,Kumo只是直接对话仓库内的数据。"
GNN与LLM的协同
Hema详细讨论了图神经网络与大语言模型的互补关系。LLM可以为视频等非结构化内容生成语义表征(转录、摘要),这些可以作为GNN中的节点特征。反过来,GNN基于所有行为交互学习,"Kumo的预测可以像RAG算法一样,喂给LLM以ground其输出,实现个性化推荐。"
她区分了Kumo的图神经网络方法与Graph RAG:Graph RAG更像是将LLM输出绑定到知识图谱中——比如在医疗领域,保险代码、症状之间的结构化关系。而Kumo是一个推荐系统,提供基于行为数据的预测。"两者的共同点是让LLM输出减少幻觉。"
可解释AI:保险和医疗的硬需求
对于Kumo所处的垂直领域(保险、医疗、金融科技),可解释性是"桌上筹码"——客户必须理解为什么某个推荐被做出。"模型不能过度依赖种族、肤色、民族等受保护属性。"Kumo开发了一个算法,在训练完成后回溯图结构和梯度,能够在表级别(甚至实例级别)解释哪些表和列被用于生成预测。"为什么Sonia被推荐那个视频?因为这几个具体特征。"
Kumo的愿景与Hema的领导者哲学
Hema展望了Kumo的未来:"让我最兴奋的是人们将在Kumo之上构建的应用——我们已经看到有人将Kumo与LangChain和Pinecone结合,构建聊天代理,推荐最适合你的黄色夏季连衣裙。"
在领导力方面,Hema的"北极星"(True North)价值观是"赋能人们做到超出他们认为自己能做的事情"。在Kumo,"我的工作就是让魔法发生"。她分享了对年轻AI从业者的建议:"工具来来去去,语言兴起衰落——不要跳过概率论和线性代数课。过去几十年里的每一种方法,最终都归结为核心线性代数和概率论。"
关于图神经网络何时成为AI革命的主流舞台,Hema认为我们正处于临界点。在最近的KDD(数据挖掘顶级会议)上,超过一半的论文都是关于图神经网络的。"爆炸即将到来。"