Meta 的 Joe Spisak 谈 Llama 3.1 405B 与前沿模型的民主化 | 训练数据

cover>

摘要

在 Llama 3.1 405B 发布仅两天后,Meta 生成式 AI 产品总监 Joe Spisak 接受了本期采访。Joe 曾领导 PyTorch 产品团队,深度参与了从 Llama 1 到 Llama 3.1 的全过程。他详细阐述了 405B 模型的独特能力——零样本工具使用(zero-shot tool use)、多语言支持、以及作为"巨型教师模型"蒸馏出更小模型的核心价值。Joe 深入探讨了 Meta 开源战略背后的逻辑:不是慈善,而是一种"保持创新桥梁"的策略——正如 PyTorch 曾经将全球最前沿的 AI 研究无缝导入 Meta 内部一样,开源 Llama 让整个生态在 Meta 的轨道上创新。他也坦率地讨论了模型商品化趋势、数据墙问题、合成数据的潜力,以及为什么他认为小型模型将在设备和安全领域发挥关键作用。Joe 预测,基准测试的突破会比任何人预期来得更快——"你越是盯紧一个基准测试,人们就越是会想办法攻破它。"

正文

405B:不止是一个大模型

Llama 3.1 405B 的发布在 AI 社区引起了巨大轰动。Joe 将此前 4 月份发布的 Llama 3 8B 和 70B 称为"开胃菜",而 405B 才是真正的"主菜"。这个模型的独特之处不仅在于其规模,更在于它解锁了几个关键能力:

零样本工具使用(Zero-shot Tool Use):无需专门的微调,405B 就能自然地调用外部 API——从 Wolfram Alpha 到 Brave Search 和 Google Search。Joe 认为"这将是游戏规则的改变者",因为它意味着开发者可以即插即用地将模型与各种工具和服务集成。

代码解释器能力:模型能够实际运行代码而不仅仅是生成代码,为构建智能体(Agent)提供了基础。

许可模式变革:Meta 修改了许可协议,允许开发者使用模型输出来训练其他模型。这是一个重大转变——社区长期以来一直面临"我能不能用闭源模型的输出来改进我的模型"的灰色地带。Meta 不仅允许,而且鼓励这种做法。Mark Zuckerberg 甚至在公开信中将这一定位为"新标准"。

多语言能力:作为拥有数十亿全球用户的公司,Meta 在 Llama 3.1 的后训练阶段投入了大量精力进行多语言优化——而不是简单地宣称"我们用了多语言数据预训练"。

在模型架构层面,Joe 坦率地承认:Llama 3.1 在架构上并没有激进的创新。它使用了 GQA(分组查询注意力)来提高推理效率,训练了超过 15 万亿个 token,在后训练中大量使用由 405B 生成的合成数据来提升小模型质量,并在超过 16,000 个 GPU 上进行训练——"GPU 会出故障,这绝非易事。任何人都可以嘴上说'我要在 10 万 GPU 上训练',祝你好运。"

为什么 Meta 要开源?PyTorch 的历史投射

这是采访中最核心的问题:Meta 投入数十亿美元开发世界级模型,然后免费送给全世界——这到底在图什么?

Joe 的回答很直接:"首先,我们的商业模式不依赖模型直接赚钱。"Meta 从来不是云服务公司。真正的答案藏在 PyTorch 的历史中。

Joe 在 Meta 工作了六七年,其中五年参与领导 PyTorch。他回顾道:在 PyTorch 崛起的过程中,Meta 发现了一个强大的飞轮效应——当全球研究社区在 PyTorch 上构建和发布模型时,Meta 内部可以直接拿来评估和使用。"那时候,每周甚至每天都有新的架构在 PyTorch 上开源,我们把它们拿进来评估,用于诚信(integrity)等应用。我们看到的改进是周复一周、月复一月的——而这一切都建立在我们自己内部也在使用的东西之上。"

Llama 遵循的是同样的逻辑:当学术界和公司对 Meta 的模型进行红队测试(red teaming)、越狱攻击(jailbreaking)、微调和扩展时,Meta 能够从中学习并改进自己的产品——"Linux 是开源的,内核是开源的。透明意味着更安全,漏洞修复得更快。"

Joe 还提到一个"反垄断"视角:Meta 不希望 AI 变成一个完全封闭的环境。"就像今天有 Linux 也有 Windows,开源和闭源都有各自的空间。我们相信开源模型和闭源模型将共存。"

内部也曾有过激烈的争论——有人担心"把技术交出去"会损害竞争优势。但 Meta 的结论是:他们迭代的速度太快了,根本不用担心中间版本的竞争。"你看看我们发布的速度:2023 年 2 月 Llama 1,7 月 Llama 2,12 月 Purple Llama,2024 年 4 月 Llama 3,7 月 Llama 3.1……这个节奏是疯狂的。"

模型正在商品化,价值在别处

Joe 对模型商品化趋势毫不避讳。他指出,仅在过去两周内,GPT-4o mini 以极低的价格(输入每百万 token 约 15 美分)提供了卓越性能,而 Llama 3.1 各尺寸模型也在快速压缩成本曲线。"模型正在迅速变成商品。"

对创业者来说,这意味着不要再试图从头预训练一个基础模型。"如果我是一个创业者,我现在绝对会选择开源模型作为基础。这不是因为预训练不可能,而是因为它极其昂贵——Llama 4 会更贵——而且已经有一个非常强大的基础供你构建。"

真正的护城河在别处:
- 你的数据:你的专有数据、你与用户的互动方式
- 部署灵活性:能够将小模型部署在设备端以实现低延迟和隐私保护
- 模型所有权:当你基于开源模型微调时,你拥有最终的权重——而不是被困在某个 API 服务商的推理服务上

Joe 特别批评了某些 API 微调服务的商业模式:"你把自己的数据给出去做 LoRA 微调,但你拿不到最终的 LoRA 权重——你被迫只能用他们的推理服务。这就像我给了你我的数据,你从我这里提取了 IP,我却成了你的人质。这不是一个好交易。"

小模型的巨大潜力

尽管 405B 吸引了所有目光,Joe 对小模型(8B、70B 乃至更小)的热情丝毫不减。他揭示了一个有趣的事实:Llama 3 的 8B 模型在发布时实际上比 Llama 2 的 70B 模型还要好——小一个数量级的模型超越了上一代的大模型。这背后的驱动力是数据:Llama 3 的训练数据量是 Llama 2 的 7 倍,计算资源也大幅增加。

Joe 看到了小模型的三个核心应用场景:

  1. 设备端推理:苹果和 Google 都在将模型部署到手机设备上。当隐私成为关键——例如 WhatsApp 聊天记录的本地总结——设备端小模型可以在不上传任何数据到云端的情况下完成任务。

  2. 安全模型:Meta 内部的 Llama Guard 安全分类器目前使用 8B 模型运行,但这对于"第二道防线"来说仍然太贵太慢。Joe 透露内部正在实验更小的模型来做安全分类——因为这些模型本质上只是分类器,而非自回归聊天模型。

  3. 本地 RAG 架构:想象一个场景:你手机上的小模型本地索引你的数据(聊天记录、文档),执行模糊搜索,并生成摘要——全程数据不离设备。

Joe 的结论是:"每一代大型模型的基准测试性能,都在向更小的尺寸下移——70B 的水准变成 8B,8B 的水准变成更小的模型。我们还没有达到饱和点。"

推理、数据墙与合成数据的未来

关于推理能力的来源,Joe 给出了一个简洁而深刻的答案:代码。"如果你在预训练语料中加入大量代码,模型的推理能力就会显著提升——因为代码本质上是逻辑的、一步步的、结构化的。"数学同理。甚至连科学论文也能提升推理能力——科学家写作的方式天生是逻辑性的、逐步推导的。

在数据墙(data wall)问题上,Joe 的态度是"谨慎乐观":"合成数据确实有效——我们已经证明了。我们在后训练中生成了数百万条标注合成数据,其中很多是由 405B 生成的。我们还在许可和购买数据。现在还不需要恐慌……但一年后再来问我。"

对 Frontier 模型公司之间的策略差异,Joe 分享了一个洞察:Llama 3.1 更像是一个"执行力的故事"而非"突破性研究的故事"。"如果你读 Llama 3 论文,你会发现我们并没有承担大量的研究风险。我们选择了已知有效的架构,然后用极致的规模和工程执行力把它推到了极限。这和我跟 GPT-3 论文第一作者 Tom Brown 聊天时的感受是一样的——那篇论文的核心创新也是规模。"