文本到音乐的AI生成:与Suno联合创始人Mikey Shulman对谈

摘要
Mikey Shulman是Suno的CEO,这是一家让任何人通过文本即可创作音乐的人工智能公司。在Sequoia AI Ascent活动中,Mikey带来的不是传统演讲,而是一场互动式的音乐共创体验。
Mikey的核心观察是:音乐是非常特殊的媒介。与图像或文字不同,人们对音乐有非常成熟的个人品味。走在街上随便问一个人喜欢什么音乐,他可能会说"我喜欢日本摇滚,但也喜欢某种奇怪的爵士乐"。这种品味是复杂的、个人化的,甚至是"不讲道理"的。
然而,文化将人群划分为两个阵营:艺术家阶层——那些会演奏乐器、能够创作音乐的人,以及"我们其他人"——只能被动地消费音乐。Mikey称之为"手指与耳朵之间的鸿沟":很多人有耳朵(品味),但没有手指(创作能力)。Suno的使命就是填补这个鸿沟,让每个人都能够创作属于自己的音乐。
演讲中,Mikey先是播放了Suno趋势页面的音乐作品,随后邀请现场观众互动。他让观众指定音乐类型和主题,现场用Suno生成融合了Grunge + R&B + Salsa三种风格的独特作品。这是他所说的"目前不存在的音乐类型"——而这种融合正是AI音乐创作的核心魅力:创造出此前不存在的声音体验。
Mikey还分享了一个令他个人深受触动的用户作品——一首由用户用大量心血创作的德语/爱沙尼亚语歌曲。它不是Mikey平时会听的音乐风格,他甚至不懂歌词的语言,但这首歌却以某种方式深深打动了他。这首歌的高播放量中可能80%来自Mikey自己。
Mikey的核心信念是:当人们拥有创作工具时,会有远比现在多得多的体验成为可能。特别值得一提的是,儿童对音乐有着天生的热爱——Suno正在开启的是一种全新的音乐参与方式,而不仅仅是另一种AI工具。
正文
一、音乐的特殊性与创作鸿沟
Mikey的演讲从音乐最本质的特征切入。他认为大多数人天生就被音乐深深吸引——这是人类的本能。但音乐的特殊之处在于:
- 与图像相比,人们对音乐有更深厚的个人品味(Personal Taste)
- 与文字相比,人们对音乐的偏好更加复杂、更加难以合理解释
Mikey举了一个生动的例子:问一个人喜欢什么音乐类型,他可能会给出一个无法预测的组合——"我喜欢日本摇滚,但还有某一种奇怪的Bebop爵士乐我也喜欢"。这种品味的主观性和复杂性是音乐独有的特征。
由此引出了他的核心洞察:文化将我们推向了不做音乐的境地。社会默认将人分为两类:
1. 艺术家——有能力创作和演奏音乐的人
2. 消费者——其余所有人,只能被动聆听
Mikey称之为"手指与耳朵之间的鸿沟":绝大多数人有耳朵(能够欣赏和辨别音乐),但没有"手指"(不会演奏乐器、没有音乐创作能力)。许多在座的工程师想必都有这样的体验——编码时一边敲代码一边"半听着"音乐。而当人们被赋予填补这一鸿沟的工具时,无限的新体验就成为可能。
二、Suno的实力展示:从趋势页面到现场共创
Mikey先展示了Suno趋势页面(Trending Page)上的热门作品,让观众感受平台已经产生的音乐质量。
随后,他发起了全场互动——与50位观众一起创作一首歌:
- 观众喊出第一种类型:Grunge(垃圾摇滚)
- 观众喊出第二种类型:Drum & Bass(鼓打贝斯)
- 进一步确定为更具体的组合:Grunge + R&B + Salsa(萨尔萨)
Mikey兴奋地指出:"这是一种目前不存在的音乐类型"——而这正是Suno最令人兴奋的能力:创造出此前从未存在过的音乐融合。
他输入了这个不可能的组合,Suno在几秒内就生成了结果。正如Mikey所说,这是对这三种音乐类型交汇点的某种"诠释"(Interpretation)。然后观众就可以开始"锻造"(Smithing)——不断调整、修改、打磨这首作品。
三、从消费者到创造者:文化范式的转变
Mikey在短暂的五分钟里反复强调一个观点:现有的文化结构主动地阻止了人们创作音乐。
"有艺术家阶层,然后是我们其他人——我们只是听听,有时候甚至没有在认真听。"这种二元对立是Suno试图打破的。当人们被赋予一些创作工具时,远比现在多得多的体验将成为可能。
Mikey特别提到了儿童——孩子们对音乐有着天然的深厚热爱。Suno不仅是一个AI工具,更是一种全新的音乐参与方式。它同时扩展了两个维度:
- 聆听的创意品味:人们可以听到前所未有的音乐融合
- 创作的创意品味:人们可以成为创作者,而不仅仅是消费者
四、一个令人动容的用户故事
在演讲结尾,Mikey分享了一个非常个人的瞬间——一首由Suno用户创作、令他深受触动的歌曲:
- 风格:德国主唱(German Lead),风格偏向某种暗潮
- 语言:爱沙尼亚语(Estonian)——Mikey完全不懂的语言
- 创作投入:用户可以投入了"巨大的心血"
Mikey坦言这不是他通常喜欢的音乐风格,也听不懂任何一个词,但这首歌却以某种无法解释的方式深深触动了(Resonates)他。他自嘲这首歌的高播放量中可能有80%来自自己的重复播放。他甚至表示需要联系这首歌的创作者。
这个故事是Suno愿景的完美缩影:音乐的力量超越了语言、文化和品味的边界。当AI工具赋予每个人创作能力时,产生的不仅仅是"内容",而是能够真正打动人心的音乐体验。
五、结语
Mikey的五分钟演讲或许是最短的,但也是最感性的。与大多数AI演讲侧重于技术指标或商业模式不同,他关注的是人的本能——对音乐的热爱、对表达的需求,以及文化结构如何限制了大多数人参与创作。Suno的使命是用技术拆除"手指与耳朵之间的墙",让音乐创作回归最基本的体验:任何有耳朵的人,都可以创造属于自己的声音。