Snowflake CEO Sridhar Ramaswamy 谈用数据为企业打造简单可靠的 AI

cover Sequoia Capital · 2024-10-08🎬 在 YouTube 观看原视频 →>

摘要

Snowflake CEO Sridhar Ramaswamy（什里达尔·拉马斯瓦米）在本期节目中深入分享了他对 Enterprise AI 的独特洞察。作为一位"改过自新的学者"（曾是计算机科学教授），Sridhar 在 Google 工作了 15 年，将搜索广告业务从 15 亿美元增长至超过 1200 亿美元。此后创办了 AI 驱动的搜索引擎 Neeva，该公司后被 Snowflake 收购，Sridhar 随之接任 CEO。

他从一个鲜明的对比切入：拥有 GPT-4 和整支软件工程团队的企业，在构建"与数据对话"（Talk-to-Your-Data）应用时，原始可靠性仅为 45% 左右——即一半的问题回答错误。而 Snowflake 通过约束问题域、系统化设计（如拆分"是否回答"和"如何回答"为不同子任务）、利用对数据库 schema 的深度理解，已将可靠性推至 90% 以上，正冲刺 99%。

Sridhar 详细阐述了 Snowflake 的 AI 战略：Cortex AI 作为内建于 Snowflake 的模型花园和 AI 平台层，通过 SQL 接口让任何分析师都能调用 AI 功能；Document AI 能从合同、收据等非结构化文档中提取结构化信息；Cortex Analyst 实现可靠的对话式数据查询。他的核心理念是"让复杂的变简单"——将原本需要数月软件工程的项目转化为分析师几小时的工作。

在更宏观的层面，Sridhar 分享了对基础模型竞赛、开放源码、搜索行业格局和 AI 创业机会的判断。他认为速度（Virtuosity）胜过策略（Strategy），并将此理念注入 Snowflake 的产品文化中。

正文

从 Google 广告帝国到 Snowflake CEO

Sridhar 的职业生涯轨迹相当独特。计算机科学家出身，早期学术生涯后转入产业界，2003 年与 Sequoia 合伙人 Pat Grady 同一天加入 Google。"我非常幸运地参与了人类有史以来最伟大的商业模式之一——搜索广告业务。"他运营 Google 的广告与商业部门近十年，将业务从 15 亿美元规模提升至超过 1200 亿美元。

2019 年，他在 Sequoia 的支持下创办了 Neeva——一家试图"谦虚地重新思考搜索意味着什么"的 AI 驱动搜索引擎。Neeva 最终被 Snowflake 收购，Sridhar 接替 Frank Slootman 成为这家拥有超过 10,000 家客户、年营收 26 亿美元的云数据平台公司的 CEO。

Sridhar 将 Snowflake 定义为"AI 数据云"（AI Data Cloud）："我们的核心论点是，一个以数据为中心的云计算平台，在帮助企业客户利用数据方面，将远比通用云更优越。"随着 AI 正在改变数据的存储、传输和访问方式，Snowflake 正在进行一场雄心勃勃的 AI 全面渗透战略。

Enterprise AI 的现实：从魔法到痛苦的工程

Sridhar 观察到的首要现象是：企业对 AI 的认知水平极高。"与许多技术不同——移动互联网、浏览器等往往需要多年才能被广泛接受——AI 的不同之处在于，人们一看到 ChatGPT 生成的诗歌或图像就立刻理解了：这是非常特别的东西。"

但他同样看到了一个普遍的模式：企业在 AI 项目的前两周经历"魔法阶段"——一切都很神奇；接下来的几个月则陷入痛苦——模型无法处理边界情况、准确率不够、可靠性不足。"人们感到幻灭，觉得这项技术不如他们想象的那么好。"

Sridhar 认为问题不在于模型本身的能力不足，而在于"软件工程部分的忽视"。"我们某种程度上隐含地接受了 ChatGPT 是'全知全能的'——它可以做一切。但就像 Google 搜索从来不会告诉你'这是个愚蠢的查询'一样，人们把很多不切实际的期望投射到了 AI 上。"

他的核心洞见是：即便是拥有 GPT-4 和软件工程师团队的组织，构建可靠的"与数据对话"应用仍然是一堵他们很可能无法逾越的墙。"GPT-4 开箱即用的可靠性只有 45% 左右——意味着它试图回答问题时有一半都是错的。"而 Snowflake 通过系统化设计，将问题域约束化、识别"是否回答"与"如何回答"是不同子任务并分别处理、利用对 schema 的深刻理解（包括列名歧义、每个公司对 'revenue' 的不同定义等），已将可靠性推至 90% 以上。

Snowflake 的 AI 战略：让复杂变简单

Sridhar 将 Snowflake 的 AI 产品矩阵概括为三个层面：

Cortex AI——Snowflake 的模型花园和 AI 平台层，通过 SQL 接口让任何分析师都能调用 AI 功能。"这是一个巨大的民主化机制。"Sridhar 强调，Cortex AI 不是另一个附加服务，而是内建于 Snowflake 核心引擎中。

Document AI——将非结构化文档（合同、收据、临床记录等）转化为结构化信息。"所有公司都有大量合同散落在文件夹中，里面隐藏着各种关键数字。以前你需要启动一个软件工程项目来解析，现在只需两个分析师命令。"

Cortex Analyst——"与数据对话"的 API。"我们拥有关于 schema 的所有知识、所有已运行过的查询、schema 的语义上下文。"Sridhar 解释其技术路线：这不是纯模型问题，而是系统设计问题——精心拆解问题、为模型呈现正确上下文、使用不同模型处理不同子任务、明确训练模型何时拒绝回答（而非假装能回答所有问题）。

"很多顾客想要的是：一个能运行在 10 万份文档上的聊天机器人，替换掉网站上那个令人烦恼的 FAQ 搜索框。他们不想要一个需要拼接向量索引、选择模型、编写 LangChain 自定义路由逻辑的软件工程项目。对他们来说，10% 的工作量、六小时而非六个月的实现时间就是最大的价值。"

安全性、治理与"数据不出门"

Sridhar 特别强调了 Snowflake 作为企业级平台的核心承诺：所有现有的数据治理、访问控制和安全策略在启用 AI 功能时自动生效；客户数据绝不被用于训练跨客户模型；数据不会离开 Snowflake 的安全边界。"银行、医疗机构、金融服务公司——他们想要解决问题，而不是为了技术而玩技术。"

在竞争优势方面，Sridhar 将 Snowflake 定位为"在完全自己动手（从 HuggingFace 下载模型、自建一切——最安全但最痛苦）和完全依赖 OpenAI API（最便捷但对数据安全有顾虑）之间的最佳中间地带"。"与超大规模云平台的基础设施层不同，我们在平台层——大量繁重工作已经为你完成。"

产品速度的秘诀：安全网与快速内循环

Sridhar 被问到一个引人注目的现象：Snowflake 的产品速度在过去 6 个月似乎出现了正向拐点——而通常公司越大、速度越慢。Sridhar 分享了他在 Google 时期形成的"速度公式"：

第一，建立你信任的安全网。回归测试确保不会破坏核心功能。区分不同类别的错误——对于数据库公司而言，错误写入数据是灾难性的（可能需要数月修复），而 UI 的小问题则不同。在 Google 时，他们构建了自动实验扩展框架——每个变更自动从小范围推广到 0.1%、1%、10%，全程监控。

第二，优化内部循环生产力。单个变更从开发到上线的时间决定了总体产出。

第三，系统设计确保可扩展性。Snowflake 在两年前就开始重构系统架构，使其支持模块化扩展——AI 功能正是利用了这套框架才得以快速构建。

第四，领导层的聚焦。Sridhar 要求每个团队对两周内的交付做出承诺，并对质量负责。"如果你想不断进步，生活归根结底就是：说你要做什么，然后做到你说过要做的事。"

他总结道："我一生的坚定信念是：精湛技艺（Virtuosity）胜过策略（Strategy）。执行的速度、对情境做出反应的速度，将非常迅速地碾压策略。是的，你需要策略——但生活从来不是固定策略的游戏，因为我们生活在一个极其动态的世界里。"

对基础模型竞赛的判断

当被问到是否看到了预训练的"扩展墙"时，Sridhar 表达了一种谨慎的乐观。他相信 GPT-5 正在地平线上，但不确定它将代表多大程度的阶跃变化。"GPT-4 非常酷，速度快得多，原生集成了多模态——但在推理能力、制定执行计划方面，它并没有让我感受到质变。"

他的更大担忧在于：训练前沿模型的成本正趋向 10 亿美元级别。"我真诚地希望我们不会进入这样一个阶段——你需要 10 亿美元才能训练出一个伟大的新模型。虽然那个模型能做的事情很酷，但它也将拥有这种能力的玩家数量缩减到了极少数。竞争整体上是有益的。"

对于"如果基础模型能力冻结在今天的水平会发生什么"这个假设问题，Sridhar 的回答干脆利落："这就是软件工程的魔力所在。即便 GPT-5 不出现，仍有大量魔法可以实现——但这就是工作。有一句话我很喜欢：'人们错过大多数伟大机会，因为它们往往穿着工作服，看起来像苦差事。'"

消费者搜索的未来

作为全球最顶尖的搜索专家之一，Sridhar 对搜索行业的判断尤为尖锐。"搜索业务是被精心维护的商业合同锁定的，而不是由消费者选择决定的。消费者选择很大程度上是虚构的——我们吃摆在面前的东西，我们用浏览器自带的默认搜索引擎。"

他提到 Neeva 在理念上比 Perplexity 早了两三年，"时机就是一切"。关于 Perplexity 的前景，他承认其产品体验的优越性，但质疑其突破 Google 分销壁垒的能力："你可能有世界上最酷的产品，但要改变消费者行为极其困难。"

在手机端，Sridhar 看到了更多希望。"手机是一个受控环境，实际上为消费者提供了巨大的潜力。像从日历或邮件中复制地址到 Uber 这样简单的事情，在现实中却异常困难。"他设想一个能真正"与手机对话"、在应用之间协调的 AI 助手，并指出苹果的封闭生态和 API 授权能力可能成为这一愿景的关键推动力。

快速问答

最敬佩的 AI 人物："那些在有限资源下做出伟大成果的人——比如 Mistral 的 Arthur Mensch 或 Reka 的 Dani Yogatama，以及我们自己团队中的 Samba 和 Yushi。我找到他们说'预算有限，你们能做什么'，而他们的创造力令人惊叹。"
最爱的 AI 应用：ChatGPT。"我每天从中获得的实用性简直惊人——我告诉别人，它把像我这样视觉上完全无能的人变成了入门级艺术家。我用它做的一切，从学印地语数字到用自然语言做 Python 脚本处理结构化数据——上传一个 CSV 文件，用英文说'合并这两列、格式化输出成漂亮的表格'——纯粹是魔法。"
希望存在的 AI 应用："一个真正能在应用之间协调的'与手机对话'助手。只是在不同应用之间切换、做那些微小的事情实在太痛苦了。"
AI 未来十年最好的事情："AI 作为赋能者——让创造软件和使用软件的能力触及地球上每一个人。就像 Google 搜索通过 Android 进入每个人手中是人类的真正进步一样，AI 模型作为人类与软件之间的新层级，将使这种能力变得极大可及。不仅在消费端，也在创造端。"