Box CEO谈AI智能体：为什么企业跟不上

a16z · 2026-04-28🎬 在 YouTube 观看原视频 →

摘要

本期a16z播客由Martin Casado、Steven Sinofsky与Box CEO Aaron Levie展开深度对话，聚焦AI智能体（AI Agents）在企业落地的现实困境。三位嘉宾从各自视角剖析了硅谷与企业之间的巨大鸿沟：硅谷工程师拥有极高的技术素养和自主选择工具的自由，而企业用户面对的是碎片化的数据、遗留系统（Legacy Systems）和复杂的权限控制。核心论点是，AI智能体并不能自动解决企业集成问题——任何超过千人规模或十年以上历史的企业都是一堆等待被集成的系统，AI本身并不天然具备集成能力。对话深入探讨了"把AI当人看"的新范式、无头软件（Headless Software）与浏览器交互的路线之争、AI编码带来的复杂度悖论，以及AI与就业关系的历史镜鉴。Aaron Levie以Box的实际经验分享了企业如何在安全审查、代码审查等约束条件下务实推进AI落地，并坚定看好AI将创造而非消灭工作岗位。

正文

一、硅谷与企业的巨大鸿沟

对话从Aaron Levie对当前行业分裂状态的观察展开。作为一位几乎每天都在与企业客户交流的CEO，他敏锐地指出了硅谷与外部世界之间存在一道"疯狂的分裂"（crazy divide）。

工作方式的本质差异

硅谷工程师的技术素养（technical aptitude）"高得离谱"（insanely high），他们对互联网动态高度关注，能自主选择并使用自己的工具，遇到系统问题时能快速调试。更关键的是，大语言模型在代码领域表现优异，编程工作本身又是可验证的（verifiable）。这五六项优势叠加在一起，使得AI智能体在工程领域的创业公司环境中表现出色。

然而，企业知识工作（knowledge work）的环境截然不同：用户技术素养较低，数据高度碎片化（fragmented），系统以遗留系统为主。这不是简单的"鸡同鸭讲"式的沟通障碍，而是实实在在的工作流（workflow）和技术栈（technology set）的分裂。Aaron指出，从硅谷的实践经验扩散到更广泛的知识工作领域，还需要"数年时间"。

决策瘫痪：技术变化太快反而阻碍了采用

一个有趣的反直觉现象是：AI技术的快速迭代反而降低了企业采用新技术的意愿。企业架构团队面临两难：选哪条技术路线？实验室之间频繁的跃迁（leapfrogging），不同的智能体部署范式——智能体是在计算机内部运行还是在外部运行？在云端还是本地托管？能访问哪些工具？这些技术远非可互换的（fungible）。

"企业架构团队会想，我到底该押注哪匹马？我该走哪条技术路线？因为三四年前我就曾被AI领域的错误决策伤过。"Aaron如是描述。这种技术变革的速度制造了一种"瘫痪感"（paralysis），企业的CIO和AI团队普遍陷于几种范式之间的辩论之中。

Martin Casado补充了一个具体案例：软件产品公司正在经历思维模式的根本转变。仅仅6个月前，大家还认为整合AI就是在产品中嵌入聊天功能之类的融合模式（fusion/hybrid model）。但如今，新的范式是把AI当作一个用户（user），让它以智能体的形式使用产品，而非把AI与产品融合在一起。这意味着产品需要具备"可被AI消费"的能力——而在不到一年的时间里，软件的架构已经需要被重新设计两次。

二、企业AI部署的现实挑战

董事会的AI焦虑与失败阴影

Martin Casado绘声绘色地描述了企业AI部署的典型失败路径：董事会要求CEO"我们需要更多的AI"，CEO找来咨询顾问，启动了一个无人理解其运作方式的中央化项目（centralized project），没有与运营对齐——最终这些项目无一例外地失败。

Martin指出，MIT曾有过一个统计数据声称95%的大企业AI尝试都失败了，但这个说法本身是有问题的。实际上，大量个体员工正在有效使用ChatGPT，真正失败的只是那些组织层面自上而下推动的中央化项目。董事会想要AI，但此前AI失败的惨痛经历让企业心有余悸（bruising），这为第二次AI尝试制造了额外的阻力。

被严重误读的激励：用Token计数衡量AI采用

一个令人啼笑皆非的现象是，一些大型企业试图用量化的方式推动AI使用——通过统计Token消耗量来衡量员工的AI采用程度。这种做法导致了极端的激励扭曲：员工让智能体执行无用的任务，仅仅是为了增加Token计数。

这一现象背后反映的是更深刻的问题：正如互联网时代到来时，每家公司都急于建立网站，结果是企业内部充斥着大量重组后就变成"死网页"（dead web）的团队网站。如今以Token计数驱动AI采用，极有可能重演同样的荒诞剧。

三、集成之墙：AI无法自动解决的问题

遗留系统的集成困境

Steven Sinofsky用一句精辟的论断点出了核心问题："任何超过千人规模、或者历史超过十年的企业，都是一堆等待被集成的零散系统——而AI并不会自动帮你集成任何东西。"

这不是一个新问题，而是企业IT长期存在的结构性问题。智能体也不能自动解决这个困境。即使你将AI智能体视为一个"用户"，让它能够自主操作系统，它依然会遇到企业在过去数十年间建立的各种壁垒。

访问控制与人际上下文

Aaron Levie进一步阐述：一个人类员工在企业中运作时，享有大量智能体所不具备的隐性优势。人通过多年积累的关系网络，知道该向谁"拍肩膀"获取信息、知道谁能绕过正式流程完成任务。智能体只有与人类完全相同的访问权限，它就会像人类一样撞上各种"墙壁"——无法获取正确数据，访问不了真正的单一事实来源（source of truth）。

"企业中的访问控制从来不是完美无缺的，"Aaron说，"人类总是会找到Sally说'你能把这个分享给我吗？'或者问Bob'你那边的数据系统里数字是多少？'而智能体不知道要去问Sally和Bob，它只会在流程中卡住。"

系统集成商的关键角色

Aaron认为，OpenAI的Codex与Accenture、德勤（Deloitte）等系统集成商（System Integrators）合作的新闻引发硅谷的冷嘲热讽，恰恰暴露了科技行业对外部世界理解的不足。对于一个大型企业来说，引入智能体需要经历变革管理（change management）、系统实施（systems implementation）和技术集成——"你需要大量工作才能让智能体真正有能力帮助自动化"。这是未来数十年的巨大商业机会。

Steven Sinofsky提出一个关键的分叉（fork）：智能体的用途是获取信息（acquiring）还是执行操作（doing）？如果是获取信息，互联网的历史经验表明这相对容易——第一步只要提供信息访问能力就极具价值。企业内部搜索可能在AI时代第一次真正变得有用，因为AI可以跨越不同文件系统学习信息。先实现"智能体帮你了解公司正在发生什么"，再逐步添加审批按钮等操作能力——这是一条更务实的渐进路线。

四、把AI当人看：一种新的思维范式

从软件思维到人类思维

Martin Casado提出了本期对话中最具颠覆性的观点之一：大语言模型是非确定性的（non-deterministic）、智能的、能处理长尾复杂性问题——所有这些特质恰恰也是人类的特质。而人类已经用40年时间构建了面向混乱人类的界面、流程和设计体系。

"如果你把智能体看作更像是一个人类（more like a human），你'雇佣'这个智能体，给它一个自己的邮箱地址，让它像人类一样访问文档、登录系统、请求所需资源——那么它就能沿用所有我们为人类设计的流程，而不是为软件设计的流程。"

Aaron进一步将这一类比推向极致：正如人形机器人（humanoid robots）的拥趸认为整个物理世界都是为人类设计的，所以人形形态是最优形态，AI智能体也应该尽可能沿用为人类设计的系统。"我完全支持智能体入职培训（agent onboarding）——智能体来了先去参加入职培训，CEO给它讲企业文化，每个部门向它做自我介绍。"他这样说并非玩笑——鉴于这些智能体的技术特性、不确定性和"不羁"（unruly）程度，人类已经为应对这些特性建立了一套完备的流程体系。

智能体的身份与权限

Steven Sinofsky指出一个被低估的问题：智能体必须拥有自己的身份（identity）和权限。当智能体访问CRM系统时，它必须以一个有特定权限层级的"人"的身份出现。而智能体的权限永远不会超过派遣它执行任务的那个人——否则就会出现员工要求智能体"帮我获取我不该知道的信息"的荒谬场景。

"在一个企业中，智能体就像是组织中的另一个同事（peer），"Steven解释道。这意味着传统基于数据库ACL（访问控制列表）的权限模型需要被重新思考——大语言模型输出的不是SQL表中的记录，而可能是一个句子或一个数字，你无法简单地用记录级的权限规则去过滤。

五、无头软件之争：API还是浏览器？

Salesforce全面无头化的信号意义

Salesforce宣布全面转向无头模式（headless mode）——让软件以API方式直接服务于智能体——被Aaron视为一个行业风向标。"Salesforce怎么走，很多企业软件就会怎么走。"这一转变意味着软件将同时服务于人类用户和"概率性机器用户"（probabilistic machine users/non-deterministic machine users）。

Aaron指出，无头化打开了全新的使用场景。以他自身为例，当需要出差到某个城市准备客户会议时，他可以让智能体跨系统搜索所有相关客户情报。"你的使用场景不再受限于平台上的员工数量，因为无头用户可以扩展到人类用户的百倍甚至千倍规模。"

"无头SaaS"的反驳：浏览器才是现实

然而Martin Casado给出了一个有力的反对论证。以OpenClaw等计算机使用（computer use）智能体为例，人们使用Mac Mini运行它的首要原因是什么？iMessage——因为根本没有iMessage的无头版本。另一个例子是，无头浏览器（headless browser）在实际使用中频频失败，因为大量网站部署了反爬虫（anti-scraping）措施，而无头浏览器恰恰会触发这些检测。结果反而是使用真实的Safari浏览器才能正常工作。

"说什么都走无头路线，实际上假定整个互联网都会走向无头化，而我认为正好相反——所有数据都是人类在非无头的实际应用中产生的，模型在这些数据上训练，它们天然就更擅长像人类一样使用应用。"

折中方案：分层策略

Aaron提出了一个务实的中间立场：智能体应当优先使用API进行高效操作，仅在API不存在或遇到执行问题时才"弹出浏览器"（pop into the browser）。Steven补充道，就像代码新层（codecs）的计算机使用能力已经展示的那样，在桌面端控制鼠标和键盘的能力令人震撼，但最终智能体需要判断：有MCP或CLI工具吗？如果没有，再切到云端浏览器或本地计算机。

Martin从架构演变的角度提供了历史视角：互联网时代，文档从本地硬盘的"死文档"变成可被Google搜索到的在线内容，彻底改变了人们对待文档的方式。同样地，无头模式将改变信息暴露的方式。当前的"无头API"很可能只是开发者的CLI式API，而非人类实际使用Salesforce时的交互模式——"我站在电梯里要去见客户，我需要知道什么？"这种映射是完全不同的，API最终需要向这个方向演进。

六、AI编码的悖论：更多代码需要更多工程师

代码质量下降的问题

Martin Casado提出了一个深刻的观察：使用AI辅助编码时，代码质量会随时间"显著恶化"（gets worse over time pretty materially）。AI几乎在引入与解决方案同等数量的问题。"我们实际上还没有搞清楚如何管理这个问题。"

这一悖论的核心在于：AI让你感觉自己极其高效，但实际上你可能正在制造堆积如山的额外工作。AI满足的是人类对"生产力感"（productive feeling）的渴望，但这种感觉与实际生产力之间的关系尚不明确。

Box的实际经验：2-3倍而非10倍

Aaron分享了Box的真实数据：他们最近推出的一个新功能，AI编写了大约80%至90%的代码，但真正拖慢发布速度的是安全审查（security review）——因为不能让AI生成的代码存在注入漏洞。代码审查和安全审查仍然是硬约束。

"我不认为这是5到10倍的生产力提升，我认为是2到3倍，"Aaron坦言，"你仍然受限于审查和验证工作的速度。"

复杂度创造的就业悖论

Steven Sinofsky将这一话题引向了一个更有力的结论："最有趣的概念是，代码写得越多，需要的工程师越少——但实际情况恰恰相反，因为你的系统比以往任何时候都更复杂了，这意味着你会遇到更多的系统升级挑战、更频繁的故障排查需求，以及更多的安全事件需要处理。"

他甚至用个人经历加以佐证：他在多家基础设施公司的董事会任职，那些曾被认为可能被AI"商品化"（commoditize）的公司，如今业绩一片大好——因为有比以往任何时候都更多的软件存在。"我们才刚刚开始这个领域的工作岗位增长。"

Aaron进一步拓展了这一视野：硅谷对工程岗位的想象往往局限于Google或科技初创公司，但别忘了约翰迪尔（John Deere）在研发自动拖拉机，卡特彼勒（Caterpillar）在部署AI系统，礼来（Eli Lilly）在设计更多AI辅助的药物疗法。这些公司将需要新一代工程师使用各种AI编码工具来实现自身业务的自动化。"软件正在吞噬世界"（Software is eating the world）这一预言的深层含义是，AI赋予了每个行业大量开发软件的能力，而这些软件仍然需要专家或半专家来指导智能体、审查其工作、管理其构建的系统。

七、AI与就业：历史的教训

"工作终结"论的反复破产

Steven Sinofsky展示了《时代》杂志1981年的封面文章——那篇几乎所有高中生都读过的"计算机消灭工作"的预言。当时的想象是，计算机会将公司内部的纸质流程自动化，结果第一代计算确实做了这件事——将纸质表格变成屏幕上的表单。

但故事远未结束。"有个时代，律师是不打字的。于是出现了法律助理（paralegals）这个职业。后来哈佛学生把电脑带进教室——最初还被赶出去了——但到今天，没有哪个律师不习惯使用修订模式（track changes）处理合同了。"

而事实是，今天的律师数量远比30年前多。每个律师都是"计算机化的律师"——引用来自互联网，案情摘要中的信息通过打字输入。技术没有消灭律师职业，它只是改变了律师的工作方式。

会计师的历史寓言

Aaron分享了他与Box董事会审计委员会主席（一位注册会计师，CPA）的对话。这位CPA早年的工作流程在他听来"原始得难以置信"，但正是因为当时的数据化程度低、流程相对简单，所以能做的事情也有限。计算机的出现并没有消灭会计岗位，反而让会计工作变得更复杂、更全面，创造了更多岗位。

"我们现在有能力让事情变得更复杂，"Aaron总结道，"而一旦事情变得更复杂，你最终还是遇到新的约束——谁能理解这种复杂性？"

信息生产与信息消费

人工智能让信息的生产变得更容易，但这不意味着信息消费自动跟上。企业的本质就是基于信息行动（acting on information）。当信息可以轻易被生产并处于过剩状态，它被有效消费和转化才是限制因素（gating factor）。因此，需要更多的人来消费这些信息并采取行动。

八、企业AI落地的务实路径

从低风险信息获取开始

对话中达成的最大共识之一，是企业在AI部署上的务实起点。Steven提出的"获取vs.执行"分叉（acquiring vs. doing fork）是关键框架：先让智能体成为信息获取工具——跨文件系统学习、跨系统搜索、查找异常——在这些只读（read-only）场景中验证价值并建立信任，再逐步扩展到带有审批或拒绝按钮的操作性智能体。

接受约束，不要追求幻想的效率

Aaron的经验表明，在真实的企业环境中，AI带来的效率提升是2到3倍而非宣传中的5到10倍。这不是缺陷，而是成熟运营的必然——安全审查、代码审查、合规流程不是阻碍，而是防止"整个系统崩溃"的约束。硅谷的"一键部署"（oneshotting vibe coding）文化之所以显得轻松，恰恰是因为实践者从未在"约束是为了防止系统崩溃"的环境中工作过。

重新定义工程师的范畴

未来工程岗位的定义将被扩大。软件工程不再局限于科技公司，而是渗透到每一个行业。当约翰迪尔需要改进其智能农业算法，当礼来需要更多AI辅助药物设计——这些岗位需要的不是放弃编程技能，而是将编程与行业知识深度结合。Aaron坚定地认为，所有"不要学习编程""不要进入软件工程"的预测都将被证明是彻底错误的。

避免自上而下的中央化AI项目

对话中反复出现的另一个关键教训是：董事会驱动、咨询顾问执行的中央化AI项目几乎注定失败。企业应该让AI在个体层面和有明确业务需求的部门层面自然渗透，允许那些"25岁的律所助理"——那些已经用了一年AI并知道如何有效使用它的人——成为AI扩散的实际驱动力。

本期a16z播客由Martin Casado（a16z合伙人）、Steven Sinofsky（a16z合伙人）与Aaron Levie（Box联合创始人兼CEO）参与讨论，时长约58分钟。