Glean CEO Arvind Jain：如何解决企业搜索难题以及对 AI 工作方式的启示

cover Sequoia Capital · 2024-10-29🎬 在 YouTube 观看原视频 →>

摘要

Arvind Jain 的职业生涯堪称"搜索"二字的完美注脚。他曾在 Google 搜索引擎的核心团队工作，随后联合创立了 Rubrik（数据管理独角兽），如今作为 Glean 的联合创始人兼 CEO，他正在攻克一个困扰企业软件二十余年的"圣杯"级难题：企业搜索（Enterprise Search）。

"每个 CIO 都把'工作中的 Google'描述为他们的终极目标，但我们有二十年失败的历史。"Arvind 指出，企业搜索之所以如此困难，是因为它需要同时解决三个层级的问题：首先是数据连接——企业信息分散在 Salesforce、Confluence、Jira、Google Drive、SharePoint、ServiceNow 等数百个系统中；其次是权限治理——90% 的企业数据是私有的，搜索引擎不能简单地"把所有数据扔进索引然后对所有人开放"；最后是相关性排序——搜索结果需要理解搜索者是谁、担任什么角色、属于哪个部门。

Glean 的成功之处在于它不仅解决了这些问题，更抓住了大语言模型（Large Language Model，LLM）爆发的历史性机遇。Arvind 早在 2019 年就开始将语言模型嵌入企业搜索引擎中，这使他比大多数竞争对手提前三年实践了检索增强生成（Retrieval-Augmented Generation，RAG）架构。当 ChatGPT 在 2022 年底引爆生成式 AI（Generative AI）浪潮时，Glean 已经拥有了将 AI 真正落地企业环境的所有基础设施。

正文

为什么企业搜索如此之难？

"搜索之所以困难，是因为它在某种程度上是一种魔法。"Arvind 如此定义。"你可以走进来问任何问题，你期望系统能给你正确的答案。期望值始终很高。"

企业搜索面临三重独特挑战。第一重是数据碎片化——企业的信息分散在十几个甚至几十个 SaaS 系统中，从 Sales 的 Salesforce 到工程的 Jira，从 HR 的 Workday 到协作的 Slack。仅仅建立一个能够连接所有这些系统的集成层，就可能耗费数年时间。

第二重是权限复杂性。与公共互联网搜索不同，企业内部文档绝大多数是私有的——一个 Google Drive 中的文档可能只有作者和几个共享者有权查看。搜索系统必须精确理解每个文档在数百个系统中的权限设置，确保用户只能检索到自己有权访问的内容。这是 Glean 权限治理层（Governance Layer）的核心任务。

第三重——也是大多数历史尝试失败的症结所在——是理解"人"。"搜索不仅仅是把文档放进索引然后做语义匹配，"Arvind 解释道。"当我搜索'入职指南'时，应该返回给我的入职指南取决于我是营销团队的新员工还是工程团队的新员工。"Glean 构建了一个深度知识图谱（Knowledge Graph），持续分析每个员工的角色、团队归属、工作关系，以及每份文档的目标受众、流行度和与特定人员的关联。

从 BERT 到 GPT：Glean 的"预适应"优势

一个经常被忽视的事实是：Glean 从一开始就将 AI 嵌入其核心技术中。Arvind 在 2019 年就开始使用基于 BERT 的语言模型来增强企业搜索——那时还没有人谈论"大语言模型"，他们只是将其称为"语言模型"。

"语言模型从第一天起就是我们核心搜索体验的一部分，因为它让我们能够在语义层面理解内容和查询。"Arvind 解释道。"我们从来不受限于用户使用的精确关键词——我们能够理解问题背后的含义，并将其与正确的文档匹配。"

这意味着当 ChatGPT 在 2022 年 11 月横空出世时，Glean 并没有惊慌失措——他们已经在 RAG 架构中实践了三年。Arvind 用两个"幕"来概括 Glean 的战略：第一幕是企业搜索产品——它为 Glean 赢得了客户的信任和数据接入的"权利"；第二幕是 AI 应用平台——基于已有的数据基础设施，让客户和开发者能够快速构建企业级 AI 应用。

正如 Tesla 因为在路上有数百万辆车而拥有了自动驾驶数据优势，Glean 因为其搜索产品已经在数百家企业中深度部署——数据连接已完成、权限治理已建立、知识图谱已运行——而拥有了交付企业 AI 代理（Agent）的独特优势。

RAG：连接企业数据与 LLM 的桥梁

Arvind 用通俗的语言解释了 RAG（检索增强生成）："想象一下，ChatGPT 是用了全世界的公开知识训练的。如果你问它'我的公司给我多少天带薪休假（PTO）'，它完全不知道——因为答案是你公司的私有数据。RAG 的精髓就是：当你提出一个问题时，先通过一个搜索引擎找到公司内部相关的文档，然后把这些文档连同你的问题一起交给 GPT，告诉它'用这些知识来回答'。"

但他也坦率地指出了 RAG 的现实挑战。"虽然 RAG 正在成为构建 AI 应用的标准化架构，但它依然充满挑战。你正在把两个都不完美的东西串在一起——LLM 本身会'幻觉'（hallucinate），而搜索引擎也可能失败。很多时候 RAG 应用表现不佳，是因为检索阶段就已经出了问题——你根本没有找到正确的知识片段，或者找到的是过时的信息。"

这正是 Glean 的核心竞争优势所在。"大多数企业今天构建的 RAG 应用使用的是一个简化版的检索系统——通常只是一个向量搜索（Vector Search），缺乏完整的企业上下文。而我们的方法一直是：构建一个足够好的搜索系统，使其能够作为独立产品放在用户面前——这才是搜索质量的真正试金石。当你把这个搜索引擎放入 RAG 架构时，你自然就能创造更好的 AI 体验。"

2% 的旅程：从搜索到 AI 代理

当被问及 Glean 距离其终极愿景有多远时，Arvind 的回答既坦诚又振奋："我们大概完成了 2%。我编了这个数字，但我想表达的是——一切才刚刚开始。AI 对未来工作方式的改变将远超我们今天所能看到的。"

Glean 的终极愿景是成为"工作中的 AI 助手"——不仅仅能回答问题，还能主动执行任务。"今天，大多数 AI 交互是被动的：你提问，AI 回答。但未来是 AI 主动型（proactive）。想象一下你有一个真正的执行助理——他们不仅在你要求时提供帮助，还会主动管理你的日程、告诉你下一步该做什么、了解你工作的所有细节。"

在向这个愿景迈进的过程中，Arvind 的策略出人意料地务实。面对"智能体推理"（Agentic Reasoning）这一行业热词，他提出了警示："当回答简单问题都很困难时，做复杂任务同样困难——因为如果你把一个复杂任务分解成 10 个子任务，错误率会累积。每一步 90% 的准确率，连乘之后会降到 35%。"

因此，Glean 目前的方法是从用户那里获取帮助——让用户手动构建工作流（Workflow），然后用这些人类生成的流程作为训练数据，逐步教会模型自动构建复杂任务的执行计划。"因为我们面对的问题空间太广——人们可能提出任何问题、任何任务——我们不能为每一个场景都预先构建 Agentic 推理。我们需要先学习，然后才能自动化。"

五年后的工作场景

当被要求展望五到十年后的工作场景时，Arvind 的预测大胆而坚决："我坚信，五年后我们今天所做的大部分工作将不再是人类在做——这适用于你，也适用于我。我们都是知识工作者（Knowledge Workers），而 AI 助手在很多方面比我们更强大：它们可以访问公司全部数据和知识，拥有所有历史对话和会议的上下文，不会遗忘任何东西，还具备推理能力。"

"今天的 AI 已经是超能力了——它拥有无限的知识和上下文。但未来，它将更加主动——像真正的执行助理一样，告诉你每天要做什么，管理你的效率。今天我们只有少数高管能享受这种'奢侈'，但未来每个人都将拥有自己强大的 AI 助理。"

当被问及是否会训练自己的模型时，Arvind 的回答体现了 Glean 的战略边界："我们不计划训练超大规模模型——那是 OpenAI、Google 和 Anthropic 的领域。但我们确实在为每个客户训练定制化的小型模型——让模型理解每个企业独特的术语、缩写、代号和沟通风格。模型训练是 Glean 核心技术的一部分，但不是以训练 GPT-4 级模型的方式。"

Glean 目前每天处理的用户查询量持续攀升，其核心成功指标——"用户提问并获得满意答案的比率"——维持在 80% 左右。Arvind 强调，从 80% 到 95% 乃至更高，每一步的进步都需要在搜索质量、模型能力和工作流自动化上的持续突破。而所有这些努力，都指向同一个愿景：让 Glean 成为世界上最成功的企业 AI 助手。