为什么 AI 将彻底改变客户体验:Cresta CEO Ping Wu 与 Sequoia 的 Doug Leone

摘要
Cresta CEO Ping Wu 与 Sequoia 传奇投资人 Doug Leone 共同探讨了 AI 如何在客服中心(Contact Center)这一巨型传统行业中掀起变革。客服中心是一个拥有 1,700 万-2,000 万人类座席、AI 软件市场高达数百亿美元的庞大市场,也是一切关于"无人满意"的行业:客户等待时间太长、座席年流失率高达 35%-40%(疫情期间某些公司超过 100%)、企业永远想用更少的资源做更多的事。
Ping 曾在 Google 领导客服中心业务十年,提出一个反直觉的洞见:最好的自动化来自于先理解人类在客服中心里实际做什么。Cresta 因此采取了"双轨并进"策略——既有面向现有座席的 AI 辅助产品(Agent Assist),又有完全自主的 AI 代理产品。他称之为"从牛排到滋滋声(From the Steak to the Sizzle)"的垂直整合。
Doug Leone 的介入提供了更宏大的视角。他直言不讳地判断:人类在客服中心的角色最终将被 100% 替代——"问题不在于会不会,而在于速度——3 年还是 50 年?"他将 AI 浪潮比作工业革命 2.0,远超互联网和移动互联网的总和。"AI 将完全重塑人类的存在、工作、生活和享乐方式——它可能对我们是最好的事情,也可能在未来 10-20 年成为我们的死亡之吻。"
关于价值积累,Doug 的判断斩钉截铁:"价值永远向上积累——在芯片层、系统层、再到应用层。最终价值会汇聚在离客户最近、离钱最近、离业务用户最近的地方。"他分享了一个关键教训:"当你看到一家小公司在市场前端展现出收入势头时,你要押注、捂住鼻子接受估值——这正是我们在多个市场周期中反复验证的真理。"
正文
客服中心:17,000,000 座席的行业,无人满意的市场
Ping Wu 用三个维度拆解了这个行业的痛点。第一,客户——大部分人打电话给客服的体验不言而明:等待时间长、问题得不到解决。Google 上搜索任何公司客服时,第一热门问题永远是"如何找到真人客服"。
第二,座席(Agent)——这是个被低估的悲剧。行业平均年流失率 35%-40%,疫情高峰期某些公司超过 100%。"他们每天被人大吼大叫——这压力极高,工作毫无乐趣可言。"
第三,企业——永远觉得可以做得更多但资源更少。"没有人满意,而这正是 AI 带来丰裕(Abundance)的最大机会所在。"
客服中心的规模惊人:全球 1,700 万到 2,000 万人类座席,软件市场数百亿美元,其中约 25% 实际的通话是收入产生的——销售、收款、客户挽留——不仅仅是投诉。"所以这不是 100% 的客服支持。"
当 Doug 谈到 100% 自动化的终极目标时,Ping 的现实主义提供了配重。"Gartner 的研究显示,未来五年内没有一家财富 500 强企业会完全消灭人工客服中心。GPT-4 刚出来时有人说两三年后就没有人类了——但转型时间,特别是对于大型企业来说,会比大多数人想象的更长。"
Doug 立刻接住这个论点,给出了一个更深的视角:"对我来说,百分比不是关键——100% 也好,60% 也好,关键变量是速度。如果它在 50 年后发生,对 Cresta 意味着一种事情;如果是 3 年,意味着完全另一回事。所以 N 值不是相关度量标准——对我来说相关的是采用速度(Speed of Adoption)。"
从 IVR 到 BERT 到 LLM:客服技术的发展史
Ping 将客服技术的进化分为清晰的几个阶段。最早是 IVR(互动式语音应答)——"按一按二按三"。然后是自然语言处理(NLP)和 TTS(文本转语音)的进步,让人可以直接说出需求而非按键。Ping 在 Google 期间(甚至在 BERT 和 Transformer 之前),主要用 AI 做意图分类(Intent Classification)和实体提取(Entity Extraction)——"但对话体验仍然是手工打造的"。
Transformer 的到来最初也只是用于分类目的。真正的范式转变来自 LLM:它不仅在自动化端彻底改变了对话体验,更根本的是——"你终于能够以前所未有的方式理解对话"。
但 Ping 的核心哲学是:最好的自动化来自最好的理解。 "如果这个房间真的很冷,解决方案可能不是加热器——也许是有窗户破了或者阳台门大开着。解决方案是开灯看到根因,先解决那个,再开加热器。"同样的逻辑适用于客服中心:"有很多通话根本就不应该发生。如果产品好用,流程好用,它们就不会发生。AI 应该先提供 100% 的交互可见性,进行深度分析,找到根因——通常反映的是某个流程坏了、网站更新让人困惑、固件升级断网之类的——先修好那些。"
Cresta 的双轨战略:座席辅助 + 自主代理
Cresta 处于一个独特的战略位置:同时拥有两套产品线。座席辅助(Agent Assist)实时监听客服通话,进行知识检索、数据录入、对话引导——帮助人类座席更高效。AI 代理(AI Agent)直接面向客户,自主处理对话。
Ping 用"从牛排到滋滋声"(From the Steak to the Sizzle)来比喻。"滋滋声是每个人都在谈的东西——如果你没有它,你就被认为是一家老派过时的公司。但牛排是业务真正运行所需的东西。如果你只有滋滋声没有牛排,你会很快碰壁——你没有数据和系统来真正运营客服中心。而我们双管齐下——在运营系统上加倍投入,同时也开发了滋滋声产品,因为那是客户第一天就想谈的东西。"
这个双轨战略还带来了一个类似特斯拉 L2 到 L4 自动驾驶的数据飞轮效应:因为在座席辅助流程中,Cresta 能获取所有对话的完整数据(语音和聊天),包括座席在屏幕上看到的内容。"这不是只获取对话文本——还有他们实际在看什么屏幕,这对构建最好的自动化至关重要。"这些数据为自动化的模拟测试、访客行为建模、以及未来更多交互的自动化转型提供了训练基础。
从"召唤真人"到"丰裕心态"
Ping 区分了"稀缺心态"(Scarcity Mindset)和"丰裕心态"(Abundance Mindset)。"被高估的是稀缺心态——短期内职位被 AI 替代的担忧。被低估的是丰裕心态——AI 能带来哪些今天不可能发生的新体验。"
他举例说明:你能不能直接和网站对话?能不能和 App 说话?能不能将同步交互变成异步交互——"跟航空公司 App 说'帮我做 XYZ,做好后回电',然后就挂掉等回电?"能不能拥有一个多语言的 AI 代理来覆盖那些你今天因为人员不足根本无法进行的交互?
关于人们是否会很快"更愿意和 AI 代理而不是人类对话",Ping 的回答很务实:"我从来没见过有人打电话给客服后说'我太沮丧了,请给我接你们的 AI'。"但 Doug 立刻补充:"想想语言能力、训练量——三年后,AI 的训练量远超过任何个别座席。我在这里想到的是黄金 vs. 比特币的类比——比特币会赢,它是数字的,它的能力会不断增长。"(他三次强调"这不是投资建议"。)
Doug Leone:AI 浪潮的终局判断
作为硅谷最资深的投资人之一,Doug 以罕见的坦诚分享了几个核心判断:
AI 浪潮 vs. 互联网/移动浪潮:"以前的一切都是让我们更高效的工具——我们都变成了网络化和移动化。但 AI 是工业革命 2.0。几年前我还在想,为什么市场出现了历史上最大的市值?因为连接性创造了如此巨大的收入增长。但我从未想象到的是,会有一样东西比连接性和移动性大得多——它是对人类如何存在、工作、生活和享受的完全重塑。"
Sequoia 曾经没看到这波浪潮:"2022 年 3 月,我在最后一场全体投资人年会上做道别式的汇报,有一页展示了所有浪潮——从芯片到系统到 LAN/WAN 到互联网到移动——而下一个方框里是一个问号。我们作为一家合伙公司,我们是最前沿的种子投资机构,我们没有看到下一波浪潮的到来。而这波浪潮已经是海啸级别——我看不到尽头。"
价值永远向上积累:"看各层的毛利率——芯片公司的毛利率,系统公司的毛利率,应用层的毛利率。Nvidia 是一家伟大的公司,Jensen 提前看到了许多年之后,完成了一次可能是硅谷历史上最伟大的漂亮的变局。但从长期看,价值最终会向上流向离客户最近、离钱最近、离业务用户最近的层面。"
当下的投资教训:当你看到一家小公司在一波浪潮的前端展现出收入势头——不是在 2021 年 SaaS 时代的那些细分垂类——"你要押注,捂住鼻子接受估值。我们 Sequoia 的一个重大错误就是每当看到收入势头,合伙人会议上就会有人说'哦,它可能会停,可能被替代'。"
建设 AI 公司的永恒法则
Doug 坚称,建设一家 AI 公司与你过去几十年看到的并无本质不同。你需要世界级的创始人和世界级的工程师——"如果你一开始不用 A+ 的工程师,你永远不会向上走,只会向下走。"你需要不像是"西装行政官"的销售。"给我一个线性的收入爬坡——不要在 Q1 招 250 个销售然后在 Q3 发现产品有问题背着烧钱率哭泣。"
关于 Ping 如何成为 CEO 的故事堪称经典。Cresta 的创始人离开后,公司进入"CEO 办公室"状态。这是 Doug 职业生涯中第一次在一个创始人离开的公司中"发现一个隐藏的创始人"——Ping。"他在 Google 构建了整个客服中心业务,他像创始人一样思考,不俘虏人,从谷歌招募了无数人。在我的脑海里,Ping 就是公司的创始人。"
Doug 透露当时这是个有争议的决定——"从来不是 CEO,从来没做过这个,不是创始人。"但他的信念是:这些小型优秀公司的 CEO 必须是产品人,不是销售、不是营销、更不是 CFO 或 VP HR。"经过一到两次董事会会议后,所有人都清楚了——这是极好的决定。"
Cresta 的下一步?Doug 的清单很清晰:继续推进产品,积极换掉那些达到彼得原理极限的人,远离那些开始像"西装行政官"的所谓"非常资深"人士,并且——"必须提升市场营销的游戏。有很多公司有滋滋声但没有牛排。我们有大量的牛排——我们是代理辅助品类的行业最佳,我们在 AI 代理品类上也会成为行业最佳,两条产品线都有漂亮的增长跑速。我们只需要在上面叠加一层市场营销,让 Cresta 成为行业家喻户晓的名字。"
技术背后的哲学:从确定性到代理工作流
Ping 对 Cresta 的技术栈有着深度的思考。以语音 AI 代理为例:实时双向音频流通过多个模型的级联编排——语音转文本模型、噪声消除模型、端点检测/语音活动模型、基础 LLM 对话模型、TTS 生成模型。在并行中,多组小型模型执行护栏检查(Guard Rail)和公司特异规则(如"永远不可以给出税务建议"或"永远不可以做出财务承诺")。
"工作流(Workflow)是任何你可以写进代码的步骤——那是确定的。洗车就是工作流。但人类对话是混乱的、非线性的——这就是代理工作流(Agentic Workflow)发挥作用的地方,也是 LLM 真正擅长的地方。"
在设计阶段,Cresta 运行大规模模拟来对 AI 代理进行压力测试以覆盖所有边缘案例。他们还开发了一个叫"Opera"的工具——允许客户构建自定义模型来检测对话中的有趣事件(甚至包括反欺诈),并通过从教师模型到学生模型的蒸馏将其压缩成可以实时运行的超小型模型。
关于延迟,Ping 说语音 AI 代理的响应时间低于 800 毫秒——"感觉就像在和人类对话"。
演示 vs. 生产:AI 产业的巨大鸿沟
Ping 坦言,AI 独一无二的特点之一就是演示与生产之间存在巨大鸿沟。"在光谱的另一端是火箭发射——火箭发射的演示就是生产,生产就是演示,你无法造假。但 AI 不同。"
他以看似简单的"自动摘要"功能为例:演示阶段任何人都可以用 ChatGPT 做出来。但要部署到一个跨多个大洲、拥有 20,000 名座席的实际客服中心——挑战清单长得可怕:50% 的通话发生在本地部署系统而非云端,如何在本地环境获取实时音频?通话常常有转接、有第三方参与者(如医疗专家),都需要转录。有些通话长达三四个小时,超出上下文窗口怎么办?背景噪声、不同通话原因需要不同模板、不能遗漏关键信息、要处理 PII(个人隐私信息)、数据驻留要求——"这些都不是 AI 问题,但这些是真正的商业落地挑战。"