Meta 的 Joe Spisak 谈 Llama 3.1 405B 与前沿模型的民主化 | 训练数据

cover Sequoia Capital · 2024-07-30🎬 在 YouTube 观看原视频 →>

摘要

在 Llama 3.1 405B 发布仅两天后，Meta 生成式 AI 产品总监 Joe Spisak 接受了本期采访。Joe 曾领导 PyTorch 产品团队，深度参与了从 Llama 1 到 Llama 3.1 的全过程。他详细阐述了 405B 模型的独特能力——零样本工具使用（zero-shot tool use）、多语言支持、以及作为"巨型教师模型"蒸馏出更小模型的核心价值。Joe 深入探讨了 Meta 开源战略背后的逻辑：不是慈善，而是一种"保持创新桥梁"的策略——正如 PyTorch 曾经将全球最前沿的 AI 研究无缝导入 Meta 内部一样，开源 Llama 让整个生态在 Meta 的轨道上创新。他也坦率地讨论了模型商品化趋势、数据墙问题、合成数据的潜力，以及为什么他认为小型模型将在设备和安全领域发挥关键作用。Joe 预测，基准测试的突破会比任何人预期来得更快——"你越是盯紧一个基准测试，人们就越是会想办法攻破它。"

正文

405B：不止是一个大模型

Llama 3.1 405B 的发布在 AI 社区引起了巨大轰动。Joe 将此前 4 月份发布的 Llama 3 8B 和 70B 称为"开胃菜"，而 405B 才是真正的"主菜"。这个模型的独特之处不仅在于其规模，更在于它解锁了几个关键能力：

零样本工具使用（Zero-shot Tool Use）：无需专门的微调，405B 就能自然地调用外部 API——从 Wolfram Alpha 到 Brave Search 和 Google Search。Joe 认为"这将是游戏规则的改变者"，因为它意味着开发者可以即插即用地将模型与各种工具和服务集成。

代码解释器能力：模型能够实际运行代码而不仅仅是生成代码，为构建智能体（Agent）提供了基础。

许可模式变革：Meta 修改了许可协议，允许开发者使用模型输出来训练其他模型。这是一个重大转变——社区长期以来一直面临"我能不能用闭源模型的输出来改进我的模型"的灰色地带。Meta 不仅允许，而且鼓励这种做法。Mark Zuckerberg 甚至在公开信中将这一定位为"新标准"。

多语言能力：作为拥有数十亿全球用户的公司，Meta 在 Llama 3.1 的后训练阶段投入了大量精力进行多语言优化——而不是简单地宣称"我们用了多语言数据预训练"。

在模型架构层面，Joe 坦率地承认：Llama 3.1 在架构上并没有激进的创新。它使用了 GQA（分组查询注意力）来提高推理效率，训练了超过 15 万亿个 token，在后训练中大量使用由 405B 生成的合成数据来提升小模型质量，并在超过 16,000 个 GPU 上进行训练——"GPU 会出故障，这绝非易事。任何人都可以嘴上说'我要在 10 万 GPU 上训练'，祝你好运。"

为什么 Meta 要开源？PyTorch 的历史投射

这是采访中最核心的问题：Meta 投入数十亿美元开发世界级模型，然后免费送给全世界——这到底在图什么？

Joe 的回答很直接："首先，我们的商业模式不依赖模型直接赚钱。"Meta 从来不是云服务公司。真正的答案藏在 PyTorch 的历史中。

Joe 在 Meta 工作了六七年，其中五年参与领导 PyTorch。他回顾道：在 PyTorch 崛起的过程中，Meta 发现了一个强大的飞轮效应——当全球研究社区在 PyTorch 上构建和发布模型时，Meta 内部可以直接拿来评估和使用。"那时候，每周甚至每天都有新的架构在 PyTorch 上开源，我们把它们拿进来评估，用于诚信（integrity）等应用。我们看到的改进是周复一周、月复一月的——而这一切都建立在我们自己内部也在使用的东西之上。"

Llama 遵循的是同样的逻辑：当学术界和公司对 Meta 的模型进行红队测试（red teaming）、越狱攻击（jailbreaking）、微调和扩展时，Meta 能够从中学习并改进自己的产品——"Linux 是开源的，内核是开源的。透明意味着更安全，漏洞修复得更快。"

Joe 还提到一个"反垄断"视角：Meta 不希望 AI 变成一个完全封闭的环境。"就像今天有 Linux 也有 Windows，开源和闭源都有各自的空间。我们相信开源模型和闭源模型将共存。"

内部也曾有过激烈的争论——有人担心"把技术交出去"会损害竞争优势。但 Meta 的结论是：他们迭代的速度太快了，根本不用担心中间版本的竞争。"你看看我们发布的速度：2023 年 2 月 Llama 1，7 月 Llama 2，12 月 Purple Llama，2024 年 4 月 Llama 3，7 月 Llama 3.1……这个节奏是疯狂的。"

模型正在商品化，价值在别处

Joe 对模型商品化趋势毫不避讳。他指出，仅在过去两周内，GPT-4o mini 以极低的价格（输入每百万 token 约 15 美分）提供了卓越性能，而 Llama 3.1 各尺寸模型也在快速压缩成本曲线。"模型正在迅速变成商品。"

对创业者来说，这意味着不要再试图从头预训练一个基础模型。"如果我是一个创业者，我现在绝对会选择开源模型作为基础。这不是因为预训练不可能，而是因为它极其昂贵——Llama 4 会更贵——而且已经有一个非常强大的基础供你构建。"

真正的护城河在别处：
- 你的数据：你的专有数据、你与用户的互动方式
- 部署灵活性：能够将小模型部署在设备端以实现低延迟和隐私保护
- 模型所有权：当你基于开源模型微调时，你拥有最终的权重——而不是被困在某个 API 服务商的推理服务上

Joe 特别批评了某些 API 微调服务的商业模式："你把自己的数据给出去做 LoRA 微调，但你拿不到最终的 LoRA 权重——你被迫只能用他们的推理服务。这就像我给了你我的数据，你从我这里提取了 IP，我却成了你的人质。这不是一个好交易。"

小模型的巨大潜力

尽管 405B 吸引了所有目光，Joe 对小模型（8B、70B 乃至更小）的热情丝毫不减。他揭示了一个有趣的事实：Llama 3 的 8B 模型在发布时实际上比 Llama 2 的 70B 模型还要好——小一个数量级的模型超越了上一代的大模型。这背后的驱动力是数据：Llama 3 的训练数据量是 Llama 2 的 7 倍，计算资源也大幅增加。

Joe 看到了小模型的三个核心应用场景：

设备端推理：苹果和 Google 都在将模型部署到手机设备上。当隐私成为关键——例如 WhatsApp 聊天记录的本地总结——设备端小模型可以在不上传任何数据到云端的情况下完成任务。
安全模型：Meta 内部的 Llama Guard 安全分类器目前使用 8B 模型运行，但这对于"第二道防线"来说仍然太贵太慢。Joe 透露内部正在实验更小的模型来做安全分类——因为这些模型本质上只是分类器，而非自回归聊天模型。
本地 RAG 架构：想象一个场景：你手机上的小模型本地索引你的数据（聊天记录、文档），执行模糊搜索，并生成摘要——全程数据不离设备。

Joe 的结论是："每一代大型模型的基准测试性能，都在向更小的尺寸下移——70B 的水准变成 8B，8B 的水准变成更小的模型。我们还没有达到饱和点。"

推理、数据墙与合成数据的未来

关于推理能力的来源，Joe 给出了一个简洁而深刻的答案：代码。"如果你在预训练语料中加入大量代码，模型的推理能力就会显著提升——因为代码本质上是逻辑的、一步步的、结构化的。"数学同理。甚至连科学论文也能提升推理能力——科学家写作的方式天生是逻辑性的、逐步推导的。

在数据墙（data wall）问题上，Joe 的态度是"谨慎乐观"："合成数据确实有效——我们已经证明了。我们在后训练中生成了数百万条标注合成数据，其中很多是由 405B 生成的。我们还在许可和购买数据。现在还不需要恐慌……但一年后再来问我。"

对 Frontier 模型公司之间的策略差异，Joe 分享了一个洞察：Llama 3.1 更像是一个"执行力的故事"而非"突破性研究的故事"。"如果你读 Llama 3 论文，你会发现我们并没有承担大量的研究风险。我们选择了已知有效的架构，然后用极致的规模和工程执行力把它推到了极限。这和我跟 GPT-3 论文第一作者 Tom Brown 聊天时的感受是一样的——那篇论文的核心创新也是规模。"