Suno 的 Mikey Shulman：现在每个人都能做音乐了

cover Sequoia Capital · 2026-05-13🎬 在 YouTube 观看原视频 →>

摘要

Mikey Shulman 从哈佛量子计算物理学博士转变为全球最大 AI 音乐公司 Suno 的创始人和 CEO——这是一个看似不可能的跨界。他和团队最初认为生成好音乐在计算上"差了至少两个数量级"，因此最初创业方向是用 AI 来理解音频而非生成音频。但早期的技术突破让他们发现：如果把所有音乐知识都扔掉——忘记 12 个音阶、忘记乐器分类——只是把声音当作每秒采样 48,000 次的波形来建模，结果反而更强大。如今 Suno 拥有 3 亿美元的年营收 run rate，与华纳音乐达成里程碑式合作，90% 的用户每天都会创作音乐。Mikey 的愿景不是用 AI 取代 Spotify，而是创造一种全新的"创意娱乐"品类——让创作本身成为娱乐。他认为音乐体验 25 年没有真正变化过了，是时候迎来下一代格式了。

正文

从量子物理到 AI 音乐：不可能的跨界

"按履历来说，我完全没有资格去建一家消费娱乐公司，"Mikey 笑着说。他在哈佛获得物理学博士学位，研究方向是固态自旋量子计算。但他指出，从物理学跨界到 AI 并非没有先例——30 年前很多人从物理转向量化交易，而现在是从物理转向 AI。

他最重要的收获是：在两个通常不交叉的领域交汇处玩，是所有领域中的巨大机会。 可以是音乐与技术，也可以是量子力学与低温微波工程。而他此前在金融科技创业公司 Kensho 的经历（"Kensho 黑帮"还产出了 Harrison Chase 等人）为他提供了人才密度重要性的深刻教训。

扔掉所有音乐知识

Suno 的早期团队做了一个反直觉的决定：不给模型任何音乐知识。

"在西方音乐中有 12 个音阶。如果你告诉模型有 12 个音阶，它就永远只能产生这 12 个音阶。你会被永远限制住。如果告诉模型有 200 种乐器，你就永远只能得到这些声音——下一个 Skrillex 不会通过 Suno 出现。"

所以他们的方法是从零开始：声音就是声音——每秒钟采样 48,000 次的连续 float32 数值。 试图对其建模。"模型不知道有歌声和乐器的区别，不知道有什么乐器。最初，给的音乐知识越多，模型的创造力就越受限制。"

结果是——当模型不被告知音乐的结构时，它自己发现了可能性，甚至还创造出了前所未有的组合：带西塔琴的 trap、带 808 鼓的乡村音乐、微音阶音乐。它真正成为了一个"通用的音乐制造机器"。

创造本身就是娱乐

Mikey 提出的核心品类概念是"创意娱乐"（Creative Entertainment）：创作的过程本身就是有趣和有成就感的——而不是为了把成品带到别处去用。 他将此与烹饪类比：人们喜欢做饭，即使能在餐厅吃到更好的。因为烹饪和消费都是乐趣的一部分。

"Suno 上任何一天，90% 的用户都会创作一些东西。人们做音乐不是为了把它拿到别处去做什么——他们是为了创作带来的乐趣和满足感而做。"

这与 Claude Code 有类似之处："你享受建造的过程，也享受使用自己建造的东西的过程。大多数我建的东西绝对不适合部署到 AWS 供百万人使用——但我享受建造，也享受使用。"

V5 的阶跃变化与"规模不解决问题"

Suno V5 是一次明显的质量飞跃。但 Mikey 强调，音乐绝不是"规模化就能解决"的问题：

"音乐模型实际上相当小。人们常常错误地把 LLM 领域的经验——大模型、规模化帮助很大——应用到音乐上。在 LLM 领域有很多基准测试，规模化是爬升这些基准的有效方式。但在音乐中没有正确答案，没有基准。你我不会对每首歌达成一致——你甚至不会同意我该做什么。"

真正驱动进步的是偏好数据（preference data）——收集用户偏好来对齐模型。"偏好数据的规模让我们能够进行我们正在使用的研究。如果没有这些数据，我们甚至无法开发我们使用的技术。这是一种良性的飞轮效应。"

AI 音乐与"slop"争议

面对"AI 音乐是 slop"的批评，Mikey 的回答令人深思。他昨天刚和 5 岁的孩子一起做了两首歌。"在 99.999% 的地球人没有兴趣听这些歌的意义上，这是 slop 吗？当然。但这对我来说意义重大。如果你管这叫 slop，我不确定我在乎。"

他指出了历史上的先例：当年人们开始在笔记本电脑上做音乐时（卧室里的 13 岁孩子做 beat），同样有"内容会泛滥"的恐慌。但回头看，这显然是件好事——音乐更多了，意味着既有更多"坏"音乐，也有更多好音乐、新类型的音乐、新类型的明星。

与华纳合作的里程碑

Suno 与华纳音乐的标志性和解与合作，代表了一个重要的方向。Mikey 明确表示他不认为唱片公司会完蛋："它们是世界上最具文化重要性的机构之一。它们懂得音乐和音乐文化，培养和壮大能与数十亿人产生共鸣的明星。"

他不想看到 AI 音乐和非 AI 音乐"两个世界"的分裂——大多数音乐未来都会含有一些 AI 成分，就像大多数音乐现在都是经过自动调音和数字制作的一样。与华纳的合作在于创造前所未有的产品——让粉丝与最喜欢的艺术家通过音乐进行更深度的互动。

"数字音乐体验 25 年来几乎没有变化过。我们一直在流媒体听音乐。音乐需要一种新的创新和新的格式。"

什么样的产品决策最重要？

回顾最关键的产品决策，Mikey 提到了三个：

1. 做歌，不做背景音乐。 "一首歌是一个故事，以背景音乐无法做到的方式抓住你。"这更难，但也因此当时没人能做到——形成了护城河。

2. 做完整的歌，不做片段。 即使代价是音质在一段时间内不如竞品清脆。"每个人都能听一秒钟就说'那是 Suno 的歌，音质很差'。但我们选择了完整的歌曲和故事，而不是清脆但只是背景的音频。"

3. 从 Discord 快速迁移到 Web。 "我以为我们会在 Discord 上待很久，但当我们发布了一个很薄的 Web 应用后，5 天内 90% 的流量就迁移了。我完全判断错了。"

未来：社交化、个性化、互动音乐会

展望未来，Mikey 最兴奋的是让音乐重新变得社交化。"音乐在过去 30 年变得不那么社交了。" Suno 正在做的是：让人们一起创作——同步或异步——分享歌曲模板让对方即兴发挥，甚至使用自己的声音让歌曲更有个人连接感。

他还希望在 12 个月内看到真正互动的音乐会——观众能与艺术家一起实时创作音乐。"我向几百甚至上千人的观众演示 Suno 时，和那么多人一起做一首歌是非常特别的时刻。几乎是宗教般的体验。为什么不可以在 Coachella 发生？"