Suno 的 Mikey Shulman:现在每个人都能做音乐了

摘要
Mikey Shulman 从哈佛量子计算物理学博士转变为全球最大 AI 音乐公司 Suno 的创始人和 CEO——这是一个看似不可能的跨界。他和团队最初认为生成好音乐在计算上"差了至少两个数量级",因此最初创业方向是用 AI 来理解音频而非生成音频。但早期的技术突破让他们发现:如果把所有音乐知识都扔掉——忘记 12 个音阶、忘记乐器分类——只是把声音当作每秒采样 48,000 次的波形来建模,结果反而更强大。如今 Suno 拥有 3 亿美元的年营收 run rate,与华纳音乐达成里程碑式合作,90% 的用户每天都会创作音乐。Mikey 的愿景不是用 AI 取代 Spotify,而是创造一种全新的"创意娱乐"品类——让创作本身成为娱乐。他认为音乐体验 25 年没有真正变化过了,是时候迎来下一代格式了。
正文
从量子物理到 AI 音乐:不可能的跨界
"按履历来说,我完全没有资格去建一家消费娱乐公司,"Mikey 笑着说。他在哈佛获得物理学博士学位,研究方向是固态自旋量子计算。但他指出,从物理学跨界到 AI 并非没有先例——30 年前很多人从物理转向量化交易,而现在是从物理转向 AI。
他最重要的收获是:在两个通常不交叉的领域交汇处玩,是所有领域中的巨大机会。 可以是音乐与技术,也可以是量子力学与低温微波工程。而他此前在金融科技创业公司 Kensho 的经历("Kensho 黑帮"还产出了 Harrison Chase 等人)为他提供了人才密度重要性的深刻教训。
扔掉所有音乐知识
Suno 的早期团队做了一个反直觉的决定:不给模型任何音乐知识。
"在西方音乐中有 12 个音阶。如果你告诉模型有 12 个音阶,它就永远只能产生这 12 个音阶。你会被永远限制住。如果告诉模型有 200 种乐器,你就永远只能得到这些声音——下一个 Skrillex 不会通过 Suno 出现。"
所以他们的方法是从零开始:声音就是声音——每秒钟采样 48,000 次的连续 float32 数值。 试图对其建模。"模型不知道有歌声和乐器的区别,不知道有什么乐器。最初,给的音乐知识越多,模型的创造力就越受限制。"
结果是——当模型不被告知音乐的结构时,它自己发现了可能性,甚至还创造出了前所未有的组合:带西塔琴的 trap、带 808 鼓的乡村音乐、微音阶音乐。它真正成为了一个"通用的音乐制造机器"。
创造本身就是娱乐
Mikey 提出的核心品类概念是"创意娱乐"(Creative Entertainment):创作的过程本身就是有趣和有成就感的——而不是为了把成品带到别处去用。 他将此与烹饪类比:人们喜欢做饭,即使能在餐厅吃到更好的。因为烹饪和消费都是乐趣的一部分。
"Suno 上任何一天,90% 的用户都会创作一些东西。人们做音乐不是为了把它拿到别处去做什么——他们是为了创作带来的乐趣和满足感而做。"
这与 Claude Code 有类似之处:"你享受建造的过程,也享受使用自己建造的东西的过程。大多数我建的东西绝对不适合部署到 AWS 供百万人使用——但我享受建造,也享受使用。"
V5 的阶跃变化与"规模不解决问题"
Suno V5 是一次明显的质量飞跃。但 Mikey 强调,音乐绝不是"规模化就能解决"的问题:
"音乐模型实际上相当小。人们常常错误地把 LLM 领域的经验——大模型、规模化帮助很大——应用到音乐上。在 LLM 领域有很多基准测试,规模化是爬升这些基准的有效方式。但在音乐中没有正确答案,没有基准。你我不会对每首歌达成一致——你甚至不会同意我该做什么。"
真正驱动进步的是偏好数据(preference data)——收集用户偏好来对齐模型。"偏好数据的规模让我们能够进行我们正在使用的研究。如果没有这些数据,我们甚至无法开发我们使用的技术。这是一种良性的飞轮效应。"
AI 音乐与"slop"争议
面对"AI 音乐是 slop"的批评,Mikey 的回答令人深思。他昨天刚和 5 岁的孩子一起做了两首歌。"在 99.999% 的地球人没有兴趣听这些歌的意义上,这是 slop 吗?当然。但这对我来说意义重大。如果你管这叫 slop,我不确定我在乎。"
他指出了历史上的先例:当年人们开始在笔记本电脑上做音乐时(卧室里的 13 岁孩子做 beat),同样有"内容会泛滥"的恐慌。但回头看,这显然是件好事——音乐更多了,意味着既有更多"坏"音乐,也有更多好音乐、新类型的音乐、新类型的明星。
与华纳合作的里程碑
Suno 与华纳音乐的标志性和解与合作,代表了一个重要的方向。Mikey 明确表示他不认为唱片公司会完蛋:"它们是世界上最具文化重要性的机构之一。它们懂得音乐和音乐文化,培养和壮大能与数十亿人产生共鸣的明星。"
他不想看到 AI 音乐和非 AI 音乐"两个世界"的分裂——大多数音乐未来都会含有一些 AI 成分,就像大多数音乐现在都是经过自动调音和数字制作的一样。与华纳的合作在于创造前所未有的产品——让粉丝与最喜欢的艺术家通过音乐进行更深度的互动。
"数字音乐体验 25 年来几乎没有变化过。我们一直在流媒体听音乐。音乐需要一种新的创新和新的格式。"
什么样的产品决策最重要?
回顾最关键的产品决策,Mikey 提到了三个:
1. 做歌,不做背景音乐。 "一首歌是一个故事,以背景音乐无法做到的方式抓住你。"这更难,但也因此当时没人能做到——形成了护城河。
2. 做完整的歌,不做片段。 即使代价是音质在一段时间内不如竞品清脆。"每个人都能听一秒钟就说'那是 Suno 的歌,音质很差'。但我们选择了完整的歌曲和故事,而不是清脆但只是背景的音频。"
3. 从 Discord 快速迁移到 Web。 "我以为我们会在 Discord 上待很久,但当我们发布了一个很薄的 Web 应用后,5 天内 90% 的流量就迁移了。我完全判断错了。"
未来:社交化、个性化、互动音乐会
展望未来,Mikey 最兴奋的是让音乐重新变得社交化。"音乐在过去 30 年变得不那么社交了。" Suno 正在做的是:让人们一起创作——同步或异步——分享歌曲模板让对方即兴发挥,甚至使用自己的声音让歌曲更有个人连接感。
他还希望在 12 个月内看到真正互动的音乐会——观众能与艺术家一起实时创作音乐。"我向几百甚至上千人的观众演示 Suno 时,和那么多人一起做一首歌是非常特别的时刻。几乎是宗教般的体验。为什么不可以在 Coachella 发生?"