AI的信任、可靠性与安全——对话Anthropic总裁Daniela Amodei与Sequoia合伙人Sonya Huang

cover Sequoia Capital · 2024-03-26🎬 在 YouTube 观看原视频 →>

摘要

在Sequoia AI Ascent 2024大会的对话环节中，Anthropic联合创始人兼总裁Daniela Amodei与Sequoia合伙人Sonya Huang展开了一场关于AI信任、可靠性与安全的深入探讨。这场对话发生在Claude 3模型家族发布仅数周后，正值Anthropic以其独特定位在基座模型赛道中稳步确立差异化优势。

Amodei系统性地阐述了Anthropic的核心理念——安全并非商业成功的对立面，而是其同一条路径上的有机组成部分。她分解了Claude 3模型家族的"劳斯莱斯-杜卡迪"产品逻辑：Opus是旗舰级全智能、Haiku是极速低成本、Sonnet则是企业日常的中间选择。这一三层次策略回应了一个核心洞察——不同场景对智能、速度和成本的权重完全不同。

在行业现状层面，Amodei坦诚地指出LLM的根本局限：尽管业界在减少幻觉（Hallucination）方面已取得巨大进展，但能否将幻觉率降至零仍是未知数。对于最高风险决策，人类在回路中（Human-in-the-Loop, HITL）不仅是技术必需，更是心理必需——人们需要时间建立对AI工具的舒适感来做出根本性决策。她同时坦言，自主智能体行为（Agentic Behavior）的真正可靠化还面临不小的研究挑战——"让Claude帮我订机票和酒店，规划一整个假期——我不认为这马上就能实现。"

作为一家共益企业（Public Benefit Corporation, PBC），Anthropic在透明度上采取了一种克制而务实的姿态——发布数十篇技术安全与政策研究论文，尤其在机制可解释性（Mechanistic Interpretability）领域，力求提升全行业的安全水位线。Amodei详细介绍了负责任扩展策略（Responsible Scaling Policy, RSP），这是Anthropic对新兴风险的系统性回应——正视模型在化学和生物武器等极端领域的潜在风险，并承诺主动进行防护工作。在监管预判上，她认为数据隐私将是最早受到政策关注的领域，而Anthropic"不使用客户数据进行训练"的立场正在成为其企业级信任度的基石。

正文

一、信任即护城河：Anthropic的差异化逻辑

对话一开始，Amodei就以三个关键词锚定Anthropic的身份：有帮助的（Helpful）、诚实的（Honest）、无害的（Harmless）。这三个"HHH"原则不仅是品牌宣言，更是贯穿整个模型训练流程的技术约束。

在基座模型赛道日趋拥挤的今天，Anthropic的差异化来自两个维度的共振：
- 模型维度：通过宪法AI（Constitutional AI）等开创性技术，将《联合国人权宣言》、Apple服务条款等文档融入模型对齐过程，使模型的价值观更贴近人类的整体期许
- 商业维度：大型企业对模型"不说疯话"的需求与Anthropic的可靠性承诺天然对齐——尤其对于保险公司、金融机构、医疗系统等传统上并非技术早期采用者的行业

Amodei的洞察力在于将安全重新定义为商业命题："大多数企业不想要一个会输出有害垃圾的模型——那不是有用的产品。如果模型拒绝回答你的问题、不诚实、凭空捏造信息——这些都是根本性的业务挑战。"

二、Claude 3三兄弟：劳斯莱斯、宝马与杜卡迪

Claude 3的模型家族策略体现了对市场需求差异化的精准回应。Amodei以一个生动的比喻解释三者的定位：

Claude 3 Opus（旗舰/劳斯莱斯）：最智能、最强大——适用于科学研究、复杂代码生成、宏观经济政策分析等需要顶级推理能力的场景
Claude 3 Sonnet（中层/宝马）：大量企业客户用于日常信息检索与摘要、非结构化数据分析——平衡智能与成本
Claude 3 Haiku（轻量/杜卡迪赛车摩托）：极速、低成本——适用于客户支持等需要实时响应的场景

"不是每个人在所有用例中都需要顶级模型——但当你确实需要的时候，你非常需要。"这一洞察直接推动了Anthropic的模型矩阵策略。

三、产品市场契合的前沿：从癌症研究到金融分析

Amodei分享的两个用例足以说明Claude的通用性：

Dana-Farber癌症研究所：使用Claude进行遗传分析，在基因组中寻找癌症标记——"这真是一个模型能同时帮你更快地尝试治愈癌症，又能在日常法律服务或金融服务中发挥作用"
Bridgewater等金融机构：使用Claude实时分析金融信息

在验证路径上，Amodei观察到创业公司与大型企业之间的一种互补性螺旋：创业公司以速度和实验精神探索出新用例，而大型企业则将这些经过验证的模式规模化部署。Anthropic自身虽然更倾向于企业市场，但"广泛的发展生态正在发生"。

企业对生成式AI的采纳程度呈现出明显的两极分化：有些公司已有多个用例在生产环境中运行超过一年——它们清楚知道自己要优化什么指标；而另一些公司则刚刚从董事会那里听到"生成式AI"这个词，尚处于"有没有解决方案"的起点。

四、幻觉仍是根本挑战：人类在回路中的持久必要

Amodei对一个技术问题的坦率令人印象深刻："我不确定我们能否将幻觉率降到零。" 尽管行业从GPT-2时代起已在减少幻觉方面取得了巨大进展，但LLM的底层机制——仅被训练为预测下一个词——意味着当模型不知道正确答案时，它会编造一个。这一根本局限意味着：

对于最高风险决策，永远不应单独依赖模型——人类在回路中（Human-in-the-Loop）不仅是技术安全网，更是信任建设的必要环节
存在一个有趣的心理维度：即使技术在持续进步，人们也需要时间来适应将AI工具用于根本性决策——"不仅仅是模型能不能，更是人类愿不愿意"

五、智能体（Agent）的能力边界：快但不稳

在"规划和推理"这一当前AI领域最热门的议题上，Amodei展现出比许多同行更为审慎的判断。她承认Claude 3代表了前一代模型在"执行多步骤指令"上的一个跳跃，但坦诚地表示：

"模型还无法可靠地做到这一点。" 关于让Claude自主预订机票、预订酒店、规划整个假期的梦想——"我不认为这马上就能实现。仍有一些研究和工程工作需要完成。"

这一坦率与Andrew Ng在同期大会上对Agent设计模式的技术乐观形成了有趣的互补——它提醒业界：Agent的能力正在快速进步，但可靠性仍是尚未跨越的门槛。她同时指出，Claude在"接受关于自身语气的反馈"方面展现出独特灵活性——你能让Claude以金融分析师的口吻说话，也能让它用华丽辞藻创作，这种语气适应性也成为产品差异化的一部分。

六、透明度实践：通过开放研究提升行业水位

作为一家共益企业（PBC），Anthropic将"提升全行业安全水位线"视为使命的一部分。其透明度实践体现在：

已发表约两打（24篇）技术安全或政策研究论文
机制可解释性（Mechanistic Interpretability）是核心研究方向——试图理解神经网络"黑箱"内部到底在发生什么，全球仅有两三支团队在此深耕
公开发布红队测试（Red Teaming）结果

Amodei将可解释性类比为"大模型的神经科学"——你可以观察到某些神经元在思考"狗"时被激活，但你无法直接修改它们的思考方式。"我们离将可解释性产品化并不遥远得不可能，但也并不近。"

短期内可期待的是向客户展示某种可视化——"模型在这部分激活了，这些神经元亮了"——但其可操作性仍是开放问题。真正的突破可能在几年后，届时可解释性工具或许能实现更精确的模型行为控制。

七、负责任扩展策略：预见难以预见的风险

Anthropic的负责任扩展策略（Responsible Scaling Policy, RSP）是业界首个公开发布的同类政策框架。它的核心不是在事后应对风险，而是在模型训练之前主动识别风险维度并制定防护措施。

Amodei坦承这一框架可能并不完美——"将来回头看，也许有些东西错得可笑"——但其方法论价值在于："我们实际上必须主动进行工作，确保这些模型不具备造成化学武器或生物武器伤害的能力。" 这种做法将AI安全从道德呼吁转化为可操作的工程流程。

Anthropic CEO兼Amodei的兄长Dario Amodei已在国会就这一特定风险作证。RSP的本质是承诺——承诺在模型变得足够强大之前，先建立起对应的安全评估与防护体系。

八、开发者的切换成本与开放生态

在闭源与开放之间，Anthropic展现出一种务实的平衡姿态。Amodei观察到大多数大型企业在使用多模型策略——先尝试，再决定。因此"开放——随时可以下载你的数据迁移走"是终极目标，但现实中存在一系列切换障碍：

不同模型对提示词的反应不同
各模型有独特的"人格"需要时间理解
提示工程（Prompt Engineering）需要重新适配

Anthropic的策略是向开放生态靠拢，同时通过优秀的开发者体验降低粘性摩擦——提供一流的提示工程资源，帮助开发者更快理解Claude的独特交互方式。

九、监管预见：数据隐私首当其冲

在被问及监管前景时，Amodei的预测以消费者为起点——因为"政府和管理者最擅长、最有动机保护的是消费者"。她预见数据隐私将成为首当其冲的监管议题：

"你在用我的数据做什么？"
人们对将个人信息输入AI接口有天然的隐私关切
Anthropic"不使用客户数据训练模型"的立场在此成为关键的信任资产

在更宏观的"大S安全"（如模型造成大规模伤害的极端风险）层面，她观察到政策空间中的关注度和行动力正在增强，但监管始终是一个漫长的过程。Anthropic的策略是与政策制定者保持紧密合作——提供尽可能多的信息，以确保出现既防范不良后果又不扼杀创新的"有思想的监管"。

十、未来路线图：模型自感知与智能路由

对话尾声，一位观众提出了一个极具启发性的产品构想：让小型模型拥有"知识自省"能力——当问题超出自身能力边界时，自动识别并路由到大型模型。Amodei对此的反应是真诚的惊喜："这个想法太棒了——你在找工作吗？"

虽然这尚未实现，但她确认Anthropic正在思考的方向与此高度吻合：让模型自我识别任务难度，并自动在Opus、Sonnet、Haiku之间进行成本和性能最优的切换——"你不需要Opus来做这件极其简单的事情，用Haiku就好，成本只要一点点。等到了中间难度，自动切到Sonnet。"这既是研究挑战，也是产品和工程挑战，但清晰指向了AI服务智能化和成本优化的方向。