向量数据库与AI的数据结构:对话MongoDB的Sahir Azam

cover>

摘要

在本期节目中,MongoDB产品与增长负责人Sahir Azam分享了他对AI时代数据库演变的深刻见解。Sahir是MongoDB从本地部署向云端转型的关键推手,如今他正带领MongoDB进入AI时代。核心观点是:生成式AI不仅没有削弱数据库的重要性,反而因为更多软件的创建、智能体(Agent)对状态持久化的需求、以及企业对高质量检索增强生成(Retrieval-Augmented Generation, RAG)的需求,为数据库行业创造了巨大的顺风。

Sahir阐述了向量数据库从语义搜索的电商用例演化到AI应用"记忆层"的过程。他分享了令人惊叹的企业案例——从欧洲汽车制造商用音频嵌入实现"汽车版的Shazam"诊断,到Novo Nordisk用LLM加速药物审批文档——展示了多模态融合和实时运营数据如何使AI走向关键任务应用。他还提出了AI世界中的"质量工程"概念:在概率性软件的世界里,最终价值在于能否达到99.99%质量的"最后一英里"。

关于架构未来,Sahir认为LLM和数据库是互补的"双引擎"——LLM处理概率性推理和人机交互,数据库提供确定性的事务处理和结构化数据管理。他对向量作为新的数据基元(Primitive)的持久性充满信心,并分享了对开发者体验、智能体开发体验以及"英语成为终极抽象层"等趋势的思考。

正文

AI将改变软件,而不仅仅是数据库

当被问及AI是否将改变数据库市场时,Sahir给出了一个更有深度的回答:"更有趣的问题是AI是否将改变软件开发和应用程序。我认为答案是肯定的。我们看到AI驱动的应用程序正在解决传统确定性软件无法触及的用例——你们Sequoia提出的'服务即软件'(Services as Software)概念正是如此。"

"这反过来从根本上改变了我们与软件交互的方式,改变了业务逻辑如何通过智能体(Agent)等新范式演进。而这些都对其下层——数据库层——有着深远的影响。"

Sahir列举了两个展现新应用形态的趋势:一是"环境智能体"(Ambient Agents)——无需刻意的人工操作即可对信号做出反应;二是物理与虚拟世界的融合。"我们正处于人机交互模式发生根本变化的非常早期阶段。这可以大幅提升个人和职业生活的生产力——这是传统软件从未触及的领域。"

震撼的企业AI案例

Sahir分享了两个令人印象深刻的案例。第一个是欧洲某大型汽车制造商:他们使用音频嵌入模型(Audio Embedding Model),让车主或维修人员用手机录制车辆异响,与已知问题的声音语料库进行语义匹配。"对于一个棘手的诊断,原来可能需要数小时,现在可以压缩到几秒钟——这就像是汽车诊断版的Shazam(音乐识别应用)。同时,用自然语言界面取代PDF或纸质手册,获取修复步骤。"

"如果将这个商业案例外推到数千家经销商、数百款车型的迭代——这意味着数百万美元的潜在节省、更好的客户体验和品牌好感。"

第二个案例来自高度监管的制药行业:Novo Nordisk使用LLM撰写临床研究报告(Clinical Study Report, CSR)的初稿。"通过在所有已批准药物和手动流程上训练LLM,他们在几分钟内就能生成CSR初稿,质量比手动初稿更高。在制药审批这种严格审查的流程中,这直接转化为真实的美元ROI。"

向量数据库:从语义搜索到AI记忆层

Sahir追溯了MongoDB向量能力的起源:几年前,客户抱怨为什么要在操作数据库旁边再维护一个全文搜索引擎(如Elasticsearch),还要在两者之间复制数据。"为了追求开发者体验和简单性,我们开始构建搜索产品——让开发者只需面对一个数据库,但它内部具有不同的索引和存储模式。"

随后,先进的电商客户开始要求将语义相似性搜索与全文词法搜索融合——这正是MongoDB构建向量能力的起点。"然后,ChatGPT之后世界爆炸了——我们意识到这比我们预想的更加相关,于是我们猛踩油门加速。"

Sahir强调,今天最先进的客户已经认识到融合所有模式的重要性。"你需要基于元数据过滤非结构化数据,需要在关键词和相关性排序上进行传统搜索引擎式的操作,还需要从向量嵌入中提取语义含义。只有做到这一切,应用才能达到大型企业敢于将其放在客户面前所需的百分比质量可预测性——尤其是在受监管的行业。"

"把这些全部放在一个系统里是一个真正的优势。否则就需要一整套'RAG体操'——将所有这些东西绑在一起,这给开发团队带来巨大负担。"

向量 vs. 图:互补而非替代

对于向量数据库和图数据库是否是替代关系的问题,Sahir的回答很明确:它们是互补的。"图关系是对理解的增强——有些东西你无法仅从向量嵌入推断出来。就像基于元数据的预过滤是无加性的——它能提高结果质量。"

MongoDB的目标是"让这一切对开发者来说彻底简单"——开发者不需要在图数据库中维护图表示,在另一个数据库中维护元数据,在关系数据库中维护交易数据,再单独运行一个向量搜索数据库。"我们试图让这些统统消失。"

Sahir还确认了一个简洁的心智模型:"你可以把LLM看作智能体系统中的大脑,而数据库——无论是向量数据库还是组合数据库——就是记忆(Memory)。尤其是当智能体需要驱动跨多个端点的复杂工作流时,状态持久化变得更加必要。"

LLM和数据库的"双引擎"架构

Sahir提出了一个清晰的架构框架:底层是原始基础设施(计算、网络、存储),顶层是应用程序。中间层有两类——"对于确定性的东西,你需要向量数据库、图数据库、关系数据库、NoSQL数据库——传统的数据库世界。对于概率性的东西,你需要LLM——它们提供人机交互和推理能力,与这部分的确定性功能互补。"

关于"LLM是新操作系统"或"英语是终极抽象层"等热门话题,Sahir持谨慎态度。"LLM是新操作系统——这个说法对我从来不太合理,从应用能力和功能应该如何构建来看。我们看到的是:它们是并行的互补组件,共同驱动和支撑之上的应用业务逻辑和交互层。"

Sahir不认为LLM会取代对确定性输出的需求——"管理交易、搜索、所有其他数据组件,LLM没有取代——它是真正互补的。"他还指出,AI应用仍然是一个应用——"你仍然需要安全地持久化交易以确保人们的银行余额准确,你仍然需要基于文本关键词搜索信息,而不仅仅是语义意义。"

智能体的"开发者体验"

当被问到如果未来有数万亿AI智能体开发者,什么构成良好的智能体开发者体验时,Sahir指出智能体驱动的业务逻辑会使状态变得更加必要。"你正在协调更复杂的工作流,需要跟踪特定交易片段的结果并进行协调——所有这些都需要在某个地方存储,并随时间推移进行操作和更新。"

"生成式AI应用正变得更加有状态(Stateful),这推动了对数据和数据库的消费。"

他还观察到一个有趣的现象:在AI生成的软件中,至少早期阶段,存在对良好开发者体验的偏好——即更高层次的抽象。"看看Vercel v0、Replit等AI平台即服务公司的采用情况。但我们现在说这些还为时过早。"

数据墙与MongoDB的角色

当被问及MongoDB在"寻找下一个万亿级训练数据token"中的角色时,Sahir首先明确了公司的立场:"我们代表客户管理的数据属于客户——我们当然不会取走那些数据,训练客户不想让我们训练的模型。"

他看到客户使用数据的方式有三种:最简单的——在RAG工作流中使用存储在MongoDB中的核心运营数据或元数据;中等的——将元数据、交易数据和语义搜索融合到单一系统中以获得更高质量的检索;最先进的——使用MongoDB和其他系统中的数据来微调或训练针对特定用例的小型专用模型。

"我不认为会有一种单一模式适用于每个用例。客户会为延迟要求或性能要求优化各种不同的方案。"

概率性软件世界的"质量工程"

Sahir引用了Ben Thompson(Stratechery)的一个深刻洞见:"在概率性软件的世界里,质量的衡量标准是那个'最后一英里'——你如何达到99.99%的质量水平?传统上我们与制造业关联的质量工程领域,现在会应用到软件领域吗?"

"你不会像传统应用程序对话传统数据库那样获得确定性结果。因此,嵌入模型的质量、你构建RAG架构的方式,以及如何将其与业务中实时交易数据的视图融合——这才是让你获得高质量检索和结果的关键。在一个概率性的世界里,除非你的结果高质量,否则我看不到它能在保守的企业中触及关键任务用例。"

这促使MongoDB正在积极与AI框架和模型提供商合作,确保深度集成——"就像JavaScript和Web 2.0以及云计算是我们的巨大顺风一样,用于生成AI应用程序的现代技术栈默认就应该与我们良好集成。"

从本地部署到云:AI转型的启示

Sahir分享了MongoDB从传统本地部署企业软件业务转型为云原生消费驱动业务的亲身经历。"这是一个巨大的业务模型和产品战略的转变。但我认为最关键的是——这不只是一个新的SKU或新产品,这是一次业务转型(Business Transformation)。"

他强调了几个关键教训:强有力的自上而下支持("公司非常清楚推出Atlas、完成转型是超级关键的业务优先级");每个职能领导者都感觉自己有重要角色并对结果负责;投入大量精力到非技术层面——"销售赋能、定价策略、客户成功模式如何改变,几乎每个职能都发生了根本性变化"。

"有时候,大量的时间花在了那些你本来以为不需要改变那么多或会更容易的事情上——而不是你假设的'难的部分',即如何交付高可靠的云数据库。"

最后,关于开发者在AI转型中的角色,Sahir提出了一个有趣的思考:"如果智能体将成为驱动大量业务逻辑的一方,不需要组织进行定制开发——那么智能体体验可能就是真正需要优先考虑的东西。"