微软 CTO Kevin Scott：Scaling Laws 能走多远 | Training Data

cover Sequoia Capital · 2024-07-09🎬 在 YouTube 观看原视频 →>

摘要

Kevin Scott 是微软的 CTO，也是微软 AI 战略的关键架构师。在这期 Training Data 特别节目中，他与红杉资本合伙人 Bill Coughran 展开了一场覆盖广泛且深入的对话。Kevin 从个人成长经历切入——一个来自弗吉尼亚农村、家族中第一个大学毕业生的孩子，如何在对的时间出现在对的地方，最终成为全球市值最高公司的技术掌舵人。他坦率地评估了微软 AI 战略的亮点与不足，回顾了从 2017 年"皈依规模信仰"到 2019 年与 OpenAI 达成首个合作的关键决策历程。在技术层面，他深入讨论了 Scaling Laws 是否正在逼近极限（他的回答：远未达到）、训练与推理的经济学差异、训练数据的价值与商业模式，以及 AI 推理能力的演进。Kevin 还分享了 Copilot 战略背后的"辅助而非替代"哲学、GitHub Copilot 的成功，以及他母亲的医疗故事——一个关于 AI 未被部署的真实代价的动人案例。最后，他表达了对概率方法先驱 Ray Solomonoff 的敬意，认为这位在 1950 年代就被判定为"错误"的先知，最终被历史证明是无比正确的。

正文

一、从弗吉尼亚农村到微软 CTO

Kevin Scott 的个人叙事充满了时代机遇与个人选择的交织：

个人计算革命：Kevin 10-12 岁时正值个人计算革命的浪潮席卷而来。"在那种你要寻找方向、寻找可以投入的事物的年纪，计算机正好出现了——它既让我着迷，又是一个快速增长的领域。"他总结出一条经验法则：如果你对某个正在爆炸式增长的事物充满热情和学习动力，你很可能会在人生中走到不错的位置。

家族第一代大学生：Kevin 是家族中第一个获得本科学位的人——他的父母都没有上过大学。他在大学主修计算机科学，辅修英语文学。毕业时，两位导师为他的去向争执不休——计算机科学博士还是文学博士？他对两者都抱有真诚的兴趣，最终因为"穷够了"而选择了更务实的计算机道路。但他至今仍在想象，如果选择了文学博士，人生会是什么样子。

学术到工业的转折：在研究生阶段几乎完成编译器优化方向的博士学位时，Kevin 有了一个清醒的认识——花 6 个月写一篇论文，让某个合成基准测试提升 3%，然后不断重复这个过程……"这不是我想在这个世界上产生重大影响的方式。"2003 年，他给 Google 发了一封冷简历。

Google 与之后的旅程：Google 的面试是他职业生涯的关键节点——面试官名单上几乎全是编译器领域的顶尖人物。虽然他在 Google 从未真正从事编译器相关工作，但这些共同的知识背景让面试非常顺畅。随后他加入 AdMob（移动广告的奠基性公司），回到 Google，帮助 LinkedIn 上市并担任工程运营负责人，最终在 LinkedIn 被微软收购后加入微软。

"这一切都不是可以被规划的。它就是在对的时间出现在对的地方，并且在每个节点上都选择做最有趣、增长最快的事情。"

二、AI 团队的人才结构：博士必要吗？

Kevin 对 AI 人才需求给出了一个务实的二分法：

需要博士的领域：
- 构建复杂的平台基础设施：大规模分布式训练和推理系统、网络和芯片设计、系统软件。
- 训练和推理算法研发。
- 原因：这些领域需要巨量的先验知识（Prior Arts）才能快速切入。"博士项目的本质与 AI 平台系统项目非常相似——除了 AI 平台需要大量人员协作，而博士更多是相对孤立的工作。"

不一定需要博士的领域：
- 所有"应用层"的工作：教育、医疗、开发者工具、中间件、产品化……
- "AI 中除了构建平台之外，还有太多需要做的事情。对于这些，博士有帮助，但绝对不是必需的。"

三、微软 AI 战略：平台公司的逻辑

Kevin 将微软的 AI 战略根植于公司的平台基因：

微软在个人计算革命中是支柱企业，在互联网革命中扮演了重要角色（虽然不如 PC 时代那么独占）。移动计算革命则基本错过了——但"每一波技术浪潮中，我们都在思考：如何构建一个技术平台，让其他人可以在上面构建对他人有用的东西？"

微软 AI 战略的核心要素：
1. 全模型谱系：从前沿大模型到小语言模型。
2. 推理基础设施：高度优化的推理栈。
3. 超大规模：训练和推理两端都追求规模经济。
4. 开发者工具与安全基础设施：测试、评估、部署的全套支持。
5. 紧密倾听开发者："尽可能专注地倾听开发者和 AI 构建者的反馈，填补他们在部署过程中遇到的每一个空白。"

自我评价——高光与不足：

高光：与 OpenAI 一起，使"非常强大的 AI 变得比原本可能的情况更具可访问性（accessible）"，让大量原本不会构建 AI 应用的客户参与进来；在"AI 平台应该是什么样子"的问题上有自己明确的观点并持续完善。
不足：在 AI 基础投入上"起步偏晚"。微软研究（MSR）在历史上是 AI 的早期领导者，但公司没有及时将所有资源集中到正确方向上——"我们将大量 AI 投资分散到了许多不同的事情上，因为我们不想伤害任何聪明人的感情。不管原因是什么，我们没有足够快地意识到：规模才是关键，我们必须以一种有原则的方式聚焦投资。"

四、"皈依规模"的时刻

2017 年中期：Kevin 成为 CTO 后，他的核心任务是"从左到右扫描微软和整个行业"，找出 2-3 年后会让我们后悔的"执行空白"。最大的一个空白就是"AI 的进步速度不够快"。

2018 年：BERT 论文的发表——来自 Google——是一个"信仰的结晶时刻"。"分析中所有的信号都指向同一个方向：我们必须大幅加速 AI 的投入。"

2019 年：微软与 OpenAI 达成首个合作协议。

Kevin 强调，驱动这一切的是对"平台化"趋势的洞察：与之前每个模型只能做一件特定的事（点击率预测、机器翻译等）不同，大语言模型（Large Language Model, LLM）是一种通用能力——你可以用同一个模型做机器翻译、情感分析、以及大量不同的文本任务。这种通用性意味着计算投入可以被摊销到无数应用场景中。而且随着规模扩大，迁移学习（Transfer Learning）的效果越来越好，模型的能力边界也在不断扩展。

"OpenAI 有着同样的平台信仰，而且他们有原则性的分析——这些平台特性如何作为规模的函数随时间涌现——以及大量的实验验证来证明他们的预测是正确的。"

对于那个"10 亿美元"的投资数字，Kevin 的评价是：当时看起来很大，但与正在发生的事情相比，实际上并不大。GPT-3 如期达到预期，GPT-4 也如期达到预期——"这就像找到了一个与你有着相同平台信念、并且有执行记录的合作伙伴。"

五、Scaling Laws：远未到达终点

对于行业内关于"Scaling Laws 正在遭遇边际收益递减"的言论，Kevin 给出了明确的回应：

"尽管别人怎么看，我们并没有到达规模化的边际收益递减点。"

他解释了为什么这个判断很难做出——因为"你每隔几年才能采样一次，建超级计算机和训练模型都需要时间"。但"下一次采样即将到来，虽然我不能告诉你具体时间和具体会有多好，但几乎可以肯定的是：那些当前还很脆弱的东西会变得更好——更便宜、更不脆弱，然后更复杂的事情会变得可能。这就是每一代模型在规模扩大过程中的故事。"

给开发者的架构建议：不要陷入"当前前沿模型不够好，所以我必须用自己的定制方案来修补一切"的陷阱。你当然需要补充很多工程工作，但要确保架构不会阻碍你在下一代模型到来时"插入"新能力。

他分享了一个内部教训：微软内部有些团队看到前沿模型的高成本和脆弱性后，决定自建大规模 GPU 集群来训练特定领域的定制模型。然后前沿模型一个跳跃式的升级，就让这些定制方案全部过时了。

"给你的架构保留灵活性，让自己能够在新前沿到来时迅速接入。即使你内心相信下一个前沿不会到来，至少给自己保留这个选择权。"

六、训练 vs 推理的经济学

与 Bill Coughran 的判断一致——"训练成本很快会被推理成本超越"——Kevin 认为这正是应该期待的结果。"否则你就是在构建没人知道怎么用的模型，那可不是好的投资。"

硬件进步：每一代新硬件都带来远超摩尔定律的性价比提升。A100 相较 V100 约有 3-3.5 倍的性价比提升，H100 接近类似幅度，下一代的纸面数据同样令人振奋。推动力来自工艺进步、架构创新，以及对更低精度计算（如 8 位甚至更低）的充分利用。

网络创新：由于前沿模型早已超出单 GPU 的能力范围，无论是训练还是推理都需要多 GPU、多计算节点协作。在网络层面——从机箱、机架、机柜行到数据中心级别——正在发生大量创新，使计算资源的聚合更加高效。

推理环境的多样性：训练环境需要数年时间建设，是大规模资本项目。而推理则不同——如果出现更好的芯片架构、网络架构或散热技术，"实验起来要容易得多"。这意味着推理端将出现更多样化的硬件竞争和更快的进步速度。

七、训练数据的价值与商业模式

面对"数据枯竭"的行业讨论，Kevin 认为这几乎是必然发生的事，并且"数据质量比数据量更重要"其实是一件好事——它为数据合作伙伴关系提供了经济基础。

他提出了一个关键的区分：

训练数据：用于提高模型智能的数据。问题在于，很难在训练时精确度量某个具体数据点对最终模型性能的贡献——就像很难说《白鲸记》（Moby Dick）中的某个词对你人类智力的贡献有多大。
推理时的参考数据：应用运行时需要检索的数据。"大语言模型不是数据库——它是世界上最糟糕的数据库。如果你需要的是精确的事实检索，你不应该把它编码在模型权重里。"

他预言将出现围绕"推理参考数据"的新商业模式——可能是订阅、收入分成、许可，或是某种新型广告单元。"如果是 20 多岁的创业者，我现在就会去搞清楚 Agent 时代的新广告单元是什么，然后去创办那家公司。"

对于训练数据的商业模式，他的态度更为谨慎——由于数据贡献难以精确归因，这将是更难解决的问题。

八、推理能力的演进

关于 LLM 的推理能力，Kevin 做出了务实的判断：

基准测试的快速饱和：GPT QA、MMLU 等基准测试正被快速"刷满"——"一个基准刚出现，在一个模型代际内就会被接近饱和，然后你得找下一个。"这意味着评估标准本身也在不断演进。

昂贵的实验：要判断某种数据是否提升推理能力，只能通过昂贵的训练实验来验证。"教科书就够了"那篇论文（Textbooks Are All You Need）是"故事的一部分，但不是全部"——它证明了数据质量与模型性能之间存在关联，但故事比这复杂得多。

合成数据的价值：在越来越多使用合成数据的环境中，"你在花费计算资源来生成用于训练的合成 token——你非常需要确保这些 token 确实有用。"

九、Copilot 哲学与现状

微软刻意选择了"Copilot（副驾驶）"这个名字："我们希望鼓励微软内部的每位构建者，思考如何增强（augment）正在从事认知工作的人——而不是替代他们。"

Kevin 观察到，将通用能力"缩小"到特定领域，是从粗糙的前沿模型到实用工具的一条合理部署路径。GitHub Copilot 是最显著的例子——"它确实非常有用，每天都在被大量用户用于真正重要的认知工作。"

但他也承认，Copilot 越通用，就越难"以非常高的精确度代表你自主采取行动"——特别是在涉及风险、后果和问责的场景中。"我们宁愿它在推出之前就非常好，而不是发布后让用户的第一反应是'这不行，我很长时间都不会再试了'。"

Devin 案例：Kevin 提到了与 Devin 的合作——这是一个"前沿模型 + 大量其他优化"的典范，专注于给人类提供高质量的行动建议，接受后具有合理的高置信度。

十、"最后一公里"问题

Kevin 观察到一个普遍规律：AI 应用可以快速自动化 80%-90% 的任务，但"最后 10% 甚至最后 2%——那个让你真正信任系统的部分——一直非常难以攻克。"

对于这个问题是应该由更好的基础模型解决，还是由应用层软件厂商解决，Kevin 的回答是：两者兼有。下一波基础模型的升级会让当前"脆弱"的部分变得稳定，但领域特定的精细化仍然需要应用层的工程工作。

十一、长期乐观主义：AI 的真正使命

Kevin 以一段充满感情的个人故事收束全场。他的母亲——一位 74 岁的弗吉尼亚农村女士——患有格雷夫斯病（Graves Disease）已有 26 年。在最近一次药物调整后，她出现了严重的心脏症状，先后 6 次进入当地急诊室。但医护人员一开始没有注意到她的甲状腺病史——如果当时有 GPT-4 辅助，"只需输入她的症状和病历，系统就会说'她需要 TSH 检测'；输入 TSH 结果后，系统会建议'检查激素替代药物的剂量'。"

"这不是理论推演——我亲自测试过。它可以大幅减轻她的痛苦。唯一让她脱离困境的原因是我进行了干预，把她送到了一个 400 英里外的专科医生那里。但还有多少 74 岁的南方老太太、中西部的老太太，没有像我这样的人去替她们干预？"

他将此上升到更宏观的愿景：

教育：给孩子们提供更好的学习辅助。
医疗：解决医疗系统中的"荒谬问题"——在没有技术干预的情况下，随着人口老龄化只会越来越紧张。
科学：帮助科学家找到更好的碳捕获催化剂、设计更安全的交通方式、加速后碳经济的到来。

"让我们不要被生态系统中的噪音分心——在思考如何开发和部署这项技术时，永远记住'不去部署好的东西'的代价是什么。那个代价是非常、非常高的。"

十二、最敬佩的人：Ray Solomonoff

当被问及"AI 领域你最敬佩谁"时，Kevin 选择了 Ray Solomonoff——1956 年达特茅斯研讨会（AI 术语诞生的地方）的参与者之一。

在那个年代，主流学术观点认为 AI 需要通过"符号推理"、"基于规则的系统"和"本体论"来实现——就像物理学那样，先找出系统的内在简洁法则，然后软件就能模拟人类智能。Solomonoff 却提出：不，智能是一个极其复杂的现象，唯一真正有效的方法是用概率方法来建模。

"他在 1950 年代就说对了。他很长一段时间被判定为错了。我真正敬佩的是他的那种'逆势坚持'——他整个职业生涯都在坚守自己的信念。"

Kevin 不确定 Solomonoff 是否活到了亲眼看到自己有多么正确的那一天。但这个选择本身，已是对当下 AI 领域的一个意义深远的注脚。

本期对话不仅是一场关于技术趋势的深入讨论，更是一个关于信仰、时机与坚持的个人叙事。Kevin Scott 从弗吉尼亚农村一路走来的旅程，与他所信仰的规模化之路，在某种意义上是平行的——两者都需要在对的方向上持续投入，并相信最终的回报。