从 DevOps 的"心脏病发作"到 AI 驱动的诊断：Traversal 的 AI 代理

cover Sequoia Capital · 2025-06-24🎬 在 YouTube 观看原视频 →>

摘要

Traversal 的联合创始人 Anish 和 Raj 正在用 AI 代理（AI Agent）重塑 DevOps 和站点可靠性工程（SRE）领域。他们以一个生动的医疗类比开篇：今天的 DevOps 工程师如同"每周发作两次心脏病，同时忍受每日不断的慢性病痛"——即同时应对高严重性事故（High Severity Incidents）和无尽的警报流（Alert Streams）。

Traversal 的愿景是将 DevOps 工程师从"重症监护室的外科医生"转变为"基础设施的生命规划师"。他们构建的 AI 代理通过 LLM 编排工具（工具调用），在只读访问数据的前提下执行根因分析（Root Cause Analysis, RCA）。面对碎片化的可观测性（Observability）市场——企业通常同时使用 Datadog、Splunk、Datadog、Elastic、Grafana、ServiceNow 等五六种工具——Traversal 提供了一个数据源无关的诊断层。

实践结果令人振奋：当根因存在于数据中时，Traversal 能达到 L4 自主级别（精准定位到有问题的 PR 或日志），准确率超过 90%，并且在 2 到 4 分钟内完成分析。他们发现产品在大型企业中价值最高——因为大企业的可观测性数据成熟但团队高度碎片化，无人拥有完整的调试上下文。最具反直觉的发现是：向大企业推广 AI 方案反而比初创公司更快，因为大企业"对用 AI 解决真实问题的渴望异常强烈"。对于 AI 生成代码和"氛围编程（Vibe Coding）"的兴起，他们警告：当 AI 编写的代码在生产环境中以意想不到的方式交互时，需要新的 AI 维护工具来解困。

正文

医疗类比：DevOps 工程师的三重痛苦

Anish 一针见血地描述了当前 DevOps 和 SRE 从业者的处境。他将运维工作分为三个层次，恰好对应马斯洛需求层次：

第一层——心脏病发作：高严重性事故（P0/P1 Incident）。"你必须在那一瞬间解决它，其他一切都不重要。五分钟之内唯一重要的事情就是解决你正在经历的心脏病发作。"这就是传统意义上的战情室（War Room）场景，30 到 50 人涌入 Slack 频道，相互暗中指责，上演"谁是凶手"的剧本。

第二层——慢性疾病：持续的警报流和部署安全检查。"就像你每天都要应对的脚踝扭伤，你很难提前规划三个月，因为有些东西每天都在困扰你。"这正是 DevOps 工程师每天处理数千条告警、逐一判断部署是否安全的日常。

第三层——生命黑客：规划基础设施的未来。"如何优化睡眠和营养以提高生活质量？"——这是运维工作最有创造力的部分：未来五年基础设施的演进方向在哪里，应该在哪些领域投资。

"不幸的是，今天的 DevOps 和 SRE 工程师的生活是：每周发作两次心脏病，同时忍受每天不断的慢性病痛。"Anish 总结道。如果 Traversal 完成使命，AI 代理将接管第一和第二层需求，让 DevOps 工程师专注于最令人满足的创造性工作。

根因分析的荒诞现实

Raj 描述了企业事故的典型生命周期：某个客户发现问题→客服确认不是用户错误→升级给工程团队→经过五六层工程组织的"电话游戏"→最终到达 DevOps/SRE 团队→判定是否值得启动事故流程→创建 Slack 事故频道→30 到 50 人涌入→"某个 10x 工程师像福尔摩斯一样突然喊了一声 Aha，找到根因"→回滚或热修复→然后所有人慢慢寻找长期修复方案。

"不可思议的是，可观测性工具已经是企业仅次于云支出的第二大软件开支，但我们仍然停留在这种根因分析的水平上。"根源在于，可观测性行业本质上是"遥测数据（Metrics, Events, Logs, Traces，简称 MELT）的创建、存储和可视化层"——这已经是技术所能做到的全部。而故障排除这整个复杂工作流仍然高度依赖人工。

从 React 到推理时计算：技术架构的进化

Traversal 早期采用业内流行的 React 框架为小型公司构建了有效的系统。但当他们开始服务拥有数千微服务的大型企业时，遭遇了"觉醒时刻"："无论我们怎么改提示词，准确率顽固地停留在 0%。"

这个低谷迫使团队做出关键决策：不做面向特定公司的硬编码、不将人类的调试工作流硬编码进代理的行为。相反，他们将复杂性转移到了推理时计算（Inference Time Compute）上——"用 Token 来解决这个问题"。一旦找到利用推理时计算的架构，准确率开始飙升。

现在 Traversal 的架构分为两个阶段：离线阶段利用 LLM 和统计方法构建系统间的丰富依赖关系图（Dependency Map），同时使用自博弈（Self-play）优先处理最有希望的根因分析路径；在线事故发生时，代理利用实时信息和依赖关系图来决策每一步要追溯哪些线索。

Anish 指出，他们的一项重要决策是只要求只读数据访问——因为企业不希望又增加一个产生数据的工具。

大企业比初创公司更适合 AI 诊断

一个反直觉的发现是，Traversal 在大型企业中创造的价值远高于初创公司。Raj 解释："当你成为一个大企业，可观测性已经非常成熟——一切都被以正确的方式记录下来，基础数据就位。但团队高度碎片化，没有人或团队拥有完整的调试上下文。这就是为什么 30 到 50 个人出现在 Slack 事故频道中。"

Traversal 的核心价值主张是：当推理步骤能从数据中找到时，代理能做得比任何人都好——"只是数据量太大，任何一个人都无法全部记在脑中"。这与传统 SaaS 企业"先攻小公司再攻大公司"的路径截然相反。

在新客户部署上，Traversal 系统通常需要 5 到 10 小时来遍历客户的整个代码库和可观测性系统并建立起系统理解。大型客户可能需要一天。

在碎片化的可观测性市场中竞争

Raj 指出，可观测性市场之所以昂贵且碎片化，根因在于传统的定价模型：所有工具都基于存储的数据量收费。"因此，Datadog 没有动力告诉你 Splunk 里存储了什么。但要调试一个问题，SRE 需要同时调用五六种工具。"

这种历史性的碎片化为 Traversal 创造了一个机会窗口：作为数据源无关的诊断层，代理可以跨越不同的存储系统进行推理。"理想情况下，像我们这样至少在现阶段对数据存储位置保持中立的公司，会获得机会。"

然而，Traversal 面临的一个现实约束是企业通常已有 LLM 供应商的合同（OpenAI 或 Anthropic），如果试图引入自己的模型或微调版本，"你将在安全审批的地狱中困上一年"。因此，Traversal 的设计是模型无关（Model-Agnostic）的——复杂性的重心在于"让 LLM 访问正确的工具组合来编排根因分析流程"。同时，他们可以在客户的 Azure OpenAI 实例上进行微调，使其在每次事故后自动缩小差距。

从学术研究到工业落地：意外的幸运

Anish 透露了一个出人意料的学术渊源：他在 MIT 博士期间与 Broad Institute 合作，研究 CRISPR 基因干预——通过基因调控网络理解药物或基因敲除实验对基因表达的影响。事实证明，他们为学习基因间因果结构而开发的技术，与应用到微服务（Microservices）之间因果关系的发现惊人地一致。

"如果你把基因节点换成微服务节点，然后研究当我在做一个 PR 变更或破坏系统某部分时，影响如何蔓延——这几乎变成了同一个问题。"Raj 坦承这是"纯粹的运气"——"直到我们深入问题之后才意识到，天啊，我们的研究生研究竟然在这里发挥了作用，我们太幸运了。"

AI 时代的日志文化变革

一个令人深思的观点：可观测性的数据层本身将发生根本性改变。"当 AI 系统自己读取日志时，日志的格式应该与供人类滚动浏览的日志完全不同。"Raj 指出，AI 时代的日志应该在消息字段中嵌入尽可能多的信息——因为 LLM 可以处理长错误堆栈，而人类不行。"人类的上下文窗口比这些 LLM 短多了。"

Anish 补充了一个细微差别：让日志连接业务逻辑。"工程系统本身可能没问题，但什么才算'正常'取决于业务逻辑。在正确的方向上连接这两者仍然是一门艺术，除非 AI 拥有对业务逻辑的完整理解——这可能会发生，我不确定。"

AI 生成代码的维护危机

对于"氛围编程"和 AI 辅助编码工具（Cursor、Windsurf 等），Traversal 的两位创始人提出了警醒。Raj 区分了两种不同的世界：

快时尚（Fast Fashion）的世界：你写一段 prompt，得到一些代码，部署后让人们试用。"在这个世界里，可靠性根本不重要——因为你根本不需要维护你创建的东西，没有工艺可言。你创建它，然后抛弃它。"

关键任务系统（Mission-Critical Systems）的世界：支付、金融、安全基础设施。当 AI 编写的代码在这些系统中以你从未意识到或无法预见的方式交互时，当代码出错时，"你根本无法调试它——因为代码不是你写的，你不再拥有上下文。"

Raj 警告："除非我们找到使用 AI 系统进行软件维护的方法，否则我们会被扼住喉咙——要么人们禁止使用 AI 软件工程工具，因为停机时间太多；要么我们需要新的工具和软件来维护这类系统。这就是 Traversal 可以发挥作用的地方。"

他被问到"五年后支付系统或银行系统会不会被'氛围编程'"时，回答是："在某种程度上，是的。"因为只要代码通过了测试，谁在乎代码是怎么写的——但关键是要有"更好的测试感"。

问答精选

AI 代理的 L5 类比：当根因在数据中时，Traversal 处于 L4——可以定位到有问题的 PR 或烟雾弹日志，但修复仍需人类。要达到 L5，需要代码代理的发展。当根因不在数据中时，系统位于 L2——找出重要症状帮助人类调试。
团队构成：90% 是工程师，有几位拥有机器学习博士学位，大多数人来自传统软件工程背景但对生成式 AI 有浓厚兴趣。"在这个领域，入门门槛比过去低——你不再需要博士学位来写梯度更新了。"
六个月赌注：在快速演进的 AI 行业，Traversal 的策略是不断做出"六个月后 AI 会在哪里"的预判。"好消息是它只会变得更好，所以六个月后你的产品不会变差。"他们去年 9 月就预判推理模型会变得更好，并据此架构了系统——这步赌注现在正在开花结果。