微软 CTO Kevin Scott:Scaling Laws 能走多远 | Training Data

摘要
Kevin Scott 是微软的 CTO,也是微软 AI 战略的关键架构师。在这期 Training Data 特别节目中,他与红杉资本合伙人 Bill Coughran 展开了一场覆盖广泛且深入的对话。Kevin 从个人成长经历切入——一个来自弗吉尼亚农村、家族中第一个大学毕业生的孩子,如何在对的时间出现在对的地方,最终成为全球市值最高公司的技术掌舵人。他坦率地评估了微软 AI 战略的亮点与不足,回顾了从 2017 年"皈依规模信仰"到 2019 年与 OpenAI 达成首个合作的关键决策历程。在技术层面,他深入讨论了 Scaling Laws 是否正在逼近极限(他的回答:远未达到)、训练与推理的经济学差异、训练数据的价值与商业模式,以及 AI 推理能力的演进。Kevin 还分享了 Copilot 战略背后的"辅助而非替代"哲学、GitHub Copilot 的成功,以及他母亲的医疗故事——一个关于 AI 未被部署的真实代价的动人案例。最后,他表达了对概率方法先驱 Ray Solomonoff 的敬意,认为这位在 1950 年代就被判定为"错误"的先知,最终被历史证明是无比正确的。
正文
一、从弗吉尼亚农村到微软 CTO
Kevin Scott 的个人叙事充满了时代机遇与个人选择的交织:
个人计算革命:Kevin 10-12 岁时正值个人计算革命的浪潮席卷而来。"在那种你要寻找方向、寻找可以投入的事物的年纪,计算机正好出现了——它既让我着迷,又是一个快速增长的领域。"他总结出一条经验法则:如果你对某个正在爆炸式增长的事物充满热情和学习动力,你很可能会在人生中走到不错的位置。
家族第一代大学生:Kevin 是家族中第一个获得本科学位的人——他的父母都没有上过大学。他在大学主修计算机科学,辅修英语文学。毕业时,两位导师为他的去向争执不休——计算机科学博士还是文学博士?他对两者都抱有真诚的兴趣,最终因为"穷够了"而选择了更务实的计算机道路。但他至今仍在想象,如果选择了文学博士,人生会是什么样子。
学术到工业的转折:在研究生阶段几乎完成编译器优化方向的博士学位时,Kevin 有了一个清醒的认识——花 6 个月写一篇论文,让某个合成基准测试提升 3%,然后不断重复这个过程……"这不是我想在这个世界上产生重大影响的方式。"2003 年,他给 Google 发了一封冷简历。
Google 与之后的旅程:Google 的面试是他职业生涯的关键节点——面试官名单上几乎全是编译器领域的顶尖人物。虽然他在 Google 从未真正从事编译器相关工作,但这些共同的知识背景让面试非常顺畅。随后他加入 AdMob(移动广告的奠基性公司),回到 Google,帮助 LinkedIn 上市并担任工程运营负责人,最终在 LinkedIn 被微软收购后加入微软。
"这一切都不是可以被规划的。它就是在对的时间出现在对的地方,并且在每个节点上都选择做最有趣、增长最快的事情。"
二、AI 团队的人才结构:博士必要吗?
Kevin 对 AI 人才需求给出了一个务实的二分法:
需要博士的领域:
- 构建复杂的平台基础设施:大规模分布式训练和推理系统、网络和芯片设计、系统软件。
- 训练和推理算法研发。
- 原因:这些领域需要巨量的先验知识(Prior Arts)才能快速切入。"博士项目的本质与 AI 平台系统项目非常相似——除了 AI 平台需要大量人员协作,而博士更多是相对孤立的工作。"
不一定需要博士的领域:
- 所有"应用层"的工作:教育、医疗、开发者工具、中间件、产品化……
- "AI 中除了构建平台之外,还有太多需要做的事情。对于这些,博士有帮助,但绝对不是必需的。"
三、微软 AI 战略:平台公司的逻辑
Kevin 将微软的 AI 战略根植于公司的平台基因:
微软在个人计算革命中是支柱企业,在互联网革命中扮演了重要角色(虽然不如 PC 时代那么独占)。移动计算革命则基本错过了——但"每一波技术浪潮中,我们都在思考:如何构建一个技术平台,让其他人可以在上面构建对他人有用的东西?"
微软 AI 战略的核心要素:
1. 全模型谱系:从前沿大模型到小语言模型。
2. 推理基础设施:高度优化的推理栈。
3. 超大规模:训练和推理两端都追求规模经济。
4. 开发者工具与安全基础设施:测试、评估、部署的全套支持。
5. 紧密倾听开发者:"尽可能专注地倾听开发者和 AI 构建者的反馈,填补他们在部署过程中遇到的每一个空白。"
自我评价——高光与不足:
- 高光:与 OpenAI 一起,使"非常强大的 AI 变得比原本可能的情况更具可访问性(accessible)",让大量原本不会构建 AI 应用的客户参与进来;在"AI 平台应该是什么样子"的问题上有自己明确的观点并持续完善。
- 不足:在 AI 基础投入上"起步偏晚"。微软研究(MSR)在历史上是 AI 的早期领导者,但公司没有及时将所有资源集中到正确方向上——"我们将大量 AI 投资分散到了许多不同的事情上,因为我们不想伤害任何聪明人的感情。不管原因是什么,我们没有足够快地意识到:规模才是关键,我们必须以一种有原则的方式聚焦投资。"
四、"皈依规模"的时刻
2017 年中期:Kevin 成为 CTO 后,他的核心任务是"从左到右扫描微软和整个行业",找出 2-3 年后会让我们后悔的"执行空白"。最大的一个空白就是"AI 的进步速度不够快"。
2018 年:BERT 论文的发表——来自 Google——是一个"信仰的结晶时刻"。"分析中所有的信号都指向同一个方向:我们必须大幅加速 AI 的投入。"
2019 年:微软与 OpenAI 达成首个合作协议。
Kevin 强调,驱动这一切的是对"平台化"趋势的洞察:与之前每个模型只能做一件特定的事(点击率预测、机器翻译等)不同,大语言模型(Large Language Model, LLM)是一种通用能力——你可以用同一个模型做机器翻译、情感分析、以及大量不同的文本任务。这种通用性意味着计算投入可以被摊销到无数应用场景中。而且随着规模扩大,迁移学习(Transfer Learning)的效果越来越好,模型的能力边界也在不断扩展。
"OpenAI 有着同样的平台信仰,而且他们有原则性的分析——这些平台特性如何作为规模的函数随时间涌现——以及大量的实验验证来证明他们的预测是正确的。"
对于那个"10 亿美元"的投资数字,Kevin 的评价是:当时看起来很大,但与正在发生的事情相比,实际上并不大。GPT-3 如期达到预期,GPT-4 也如期达到预期——"这就像找到了一个与你有着相同平台信念、并且有执行记录的合作伙伴。"
五、Scaling Laws:远未到达终点
对于行业内关于"Scaling Laws 正在遭遇边际收益递减"的言论,Kevin 给出了明确的回应:
"尽管别人怎么看,我们并没有到达规模化的边际收益递减点。"
他解释了为什么这个判断很难做出——因为"你每隔几年才能采样一次,建超级计算机和训练模型都需要时间"。但"下一次采样即将到来,虽然我不能告诉你具体时间和具体会有多好,但几乎可以肯定的是:那些当前还很脆弱的东西会变得更好——更便宜、更不脆弱,然后更复杂的事情会变得可能。这就是每一代模型在规模扩大过程中的故事。"
给开发者的架构建议:不要陷入"当前前沿模型不够好,所以我必须用自己的定制方案来修补一切"的陷阱。你当然需要补充很多工程工作,但要确保架构不会阻碍你在下一代模型到来时"插入"新能力。
他分享了一个内部教训:微软内部有些团队看到前沿模型的高成本和脆弱性后,决定自建大规模 GPU 集群来训练特定领域的定制模型。然后前沿模型一个跳跃式的升级,就让这些定制方案全部过时了。
"给你的架构保留灵活性,让自己能够在新前沿到来时迅速接入。即使你内心相信下一个前沿不会到来,至少给自己保留这个选择权。"
六、训练 vs 推理的经济学
与 Bill Coughran 的判断一致——"训练成本很快会被推理成本超越"——Kevin 认为这正是应该期待的结果。"否则你就是在构建没人知道怎么用的模型,那可不是好的投资。"
硬件进步:每一代新硬件都带来远超摩尔定律的性价比提升。A100 相较 V100 约有 3-3.5 倍的性价比提升,H100 接近类似幅度,下一代的纸面数据同样令人振奋。推动力来自工艺进步、架构创新,以及对更低精度计算(如 8 位甚至更低)的充分利用。
网络创新:由于前沿模型早已超出单 GPU 的能力范围,无论是训练还是推理都需要多 GPU、多计算节点协作。在网络层面——从机箱、机架、机柜行到数据中心级别——正在发生大量创新,使计算资源的聚合更加高效。
推理环境的多样性:训练环境需要数年时间建设,是大规模资本项目。而推理则不同——如果出现更好的芯片架构、网络架构或散热技术,"实验起来要容易得多"。这意味着推理端将出现更多样化的硬件竞争和更快的进步速度。
七、训练数据的价值与商业模式
面对"数据枯竭"的行业讨论,Kevin 认为这几乎是必然发生的事,并且"数据质量比数据量更重要"其实是一件好事——它为数据合作伙伴关系提供了经济基础。
他提出了一个关键的区分:
- 训练数据:用于提高模型智能的数据。问题在于,很难在训练时精确度量某个具体数据点对最终模型性能的贡献——就像很难说《白鲸记》(Moby Dick)中的某个词对你人类智力的贡献有多大。
- 推理时的参考数据:应用运行时需要检索的数据。"大语言模型不是数据库——它是世界上最糟糕的数据库。如果你需要的是精确的事实检索,你不应该把它编码在模型权重里。"
他预言将出现围绕"推理参考数据"的新商业模式——可能是订阅、收入分成、许可,或是某种新型广告单元。"如果是 20 多岁的创业者,我现在就会去搞清楚 Agent 时代的新广告单元是什么,然后去创办那家公司。"
对于训练数据的商业模式,他的态度更为谨慎——由于数据贡献难以精确归因,这将是更难解决的问题。
八、推理能力的演进
关于 LLM 的推理能力,Kevin 做出了务实的判断:
基准测试的快速饱和:GPT QA、MMLU 等基准测试正被快速"刷满"——"一个基准刚出现,在一个模型代际内就会被接近饱和,然后你得找下一个。"这意味着评估标准本身也在不断演进。
昂贵的实验:要判断某种数据是否提升推理能力,只能通过昂贵的训练实验来验证。"教科书就够了"那篇论文(Textbooks Are All You Need)是"故事的一部分,但不是全部"——它证明了数据质量与模型性能之间存在关联,但故事比这复杂得多。
合成数据的价值:在越来越多使用合成数据的环境中,"你在花费计算资源来生成用于训练的合成 token——你非常需要确保这些 token 确实有用。"
九、Copilot 哲学与现状
微软刻意选择了"Copilot(副驾驶)"这个名字:"我们希望鼓励微软内部的每位构建者,思考如何增强(augment)正在从事认知工作的人——而不是替代他们。"
Kevin 观察到,将通用能力"缩小"到特定领域,是从粗糙的前沿模型到实用工具的一条合理部署路径。GitHub Copilot 是最显著的例子——"它确实非常有用,每天都在被大量用户用于真正重要的认知工作。"
但他也承认,Copilot 越通用,就越难"以非常高的精确度代表你自主采取行动"——特别是在涉及风险、后果和问责的场景中。"我们宁愿它在推出之前就非常好,而不是发布后让用户的第一反应是'这不行,我很长时间都不会再试了'。"
Devin 案例:Kevin 提到了与 Devin 的合作——这是一个"前沿模型 + 大量其他优化"的典范,专注于给人类提供高质量的行动建议,接受后具有合理的高置信度。
十、"最后一公里"问题
Kevin 观察到一个普遍规律:AI 应用可以快速自动化 80%-90% 的任务,但"最后 10% 甚至最后 2%——那个让你真正信任系统的部分——一直非常难以攻克。"
对于这个问题是应该由更好的基础模型解决,还是由应用层软件厂商解决,Kevin 的回答是:两者兼有。下一波基础模型的升级会让当前"脆弱"的部分变得稳定,但领域特定的精细化仍然需要应用层的工程工作。
十一、长期乐观主义:AI 的真正使命
Kevin 以一段充满感情的个人故事收束全场。他的母亲——一位 74 岁的弗吉尼亚农村女士——患有格雷夫斯病(Graves Disease)已有 26 年。在最近一次药物调整后,她出现了严重的心脏症状,先后 6 次进入当地急诊室。但医护人员一开始没有注意到她的甲状腺病史——如果当时有 GPT-4 辅助,"只需输入她的症状和病历,系统就会说'她需要 TSH 检测';输入 TSH 结果后,系统会建议'检查激素替代药物的剂量'。"
"这不是理论推演——我亲自测试过。它可以大幅减轻她的痛苦。唯一让她脱离困境的原因是我进行了干预,把她送到了一个 400 英里外的专科医生那里。但还有多少 74 岁的南方老太太、中西部的老太太,没有像我这样的人去替她们干预?"
他将此上升到更宏观的愿景:
- 教育:给孩子们提供更好的学习辅助。
- 医疗:解决医疗系统中的"荒谬问题"——在没有技术干预的情况下,随着人口老龄化只会越来越紧张。
- 科学:帮助科学家找到更好的碳捕获催化剂、设计更安全的交通方式、加速后碳经济的到来。
"让我们不要被生态系统中的噪音分心——在思考如何开发和部署这项技术时,永远记住'不去部署好的东西'的代价是什么。那个代价是非常、非常高的。"
十二、最敬佩的人:Ray Solomonoff
当被问及"AI 领域你最敬佩谁"时,Kevin 选择了 Ray Solomonoff——1956 年达特茅斯研讨会(AI 术语诞生的地方)的参与者之一。
在那个年代,主流学术观点认为 AI 需要通过"符号推理"、"基于规则的系统"和"本体论"来实现——就像物理学那样,先找出系统的内在简洁法则,然后软件就能模拟人类智能。Solomonoff 却提出:不,智能是一个极其复杂的现象,唯一真正有效的方法是用概率方法来建模。
"他在 1950 年代就说对了。他很长一段时间被判定为错了。我真正敬佩的是他的那种'逆势坚持'——他整个职业生涯都在坚守自己的信念。"
Kevin 不确定 Solomonoff 是否活到了亲眼看到自己有多么正确的那一天。但这个选择本身,已是对当下 AI 领域的一个意义深远的注脚。
本期对话不仅是一场关于技术趋势的深入讨论,更是一个关于信仰、时机与坚持的个人叙事。Kevin Scott 从弗吉尼亚农村一路走来的旅程,与他所信仰的规模化之路,在某种意义上是平行的——两者都需要在对的方向上持续投入,并相信最终的回报。