ElevenLabs 的 Mati Staniszewski:语音如何成为 AI 的界面

cover>

摘要

Mati Staniszewski 是 ElevenLabs 的联合创始人兼 CEO,这家公司从 2022 年起步,如今已拥有超过 400 名员工、年收入超过 4 亿美元,成为音频 AI 领域的绝对领军者。在 Sequoia AI Ascent 2026 上,Mati 讲述了 ElevenLabs 从波兰童年经历——所有外国电影被同一个单调男声配音的痛苦记忆——到构建音频前沿模型的创业故事。ElevenLabs 的模型矩阵覆盖文本转语音(Text-to-Speech)、语音转文本(Speech-to-Text)、配音本地化、语音引擎和音乐生成等全栈音频能力。Mati 揭示了语音代理人(Voice Agent)领域的两个关键趋势:从客服转向收入生成(如 Deliveroo 和 Deutsche Telekom 的案例),以及被忽视的巨大机遇——公民服务(乌克兰政府已在部署)、教育和医疗。他还分享了 ElevenLabs 的反直觉组织经验:每个非技术团队嵌入工程师、无职级制度、团队控制在 10 人以下。他对未来的核心判断是:语音和视觉将成为连接人类与 AI 智能的关键界面,而情感智能——理解用户的压力、情绪并做出相应回应——将是下一步革命性的突破。在信任层面,Mati 预言了一种范式反转:未来我们将检测"真实认证的 AI",而一切未经验证的都将被假定为伪造。

正文

童年记忆:一个声音配所有电影

ElevenLabs 的故事始于一个非常个人化的经历。Mati 和他的联合创始人 Piotr(他们从高中起就是最好的朋友)都来自波兰华沙郊区。在波兰,有一个奇特的现象:所有外国电影的配音都使用同一个人声——无论是男性角色还是女性角色,全部由同一个单调的声音朗读。

"你可以想象这是多么糟糕的体验,"Mati 回忆道,"这种配音方式刻意保持单一音调,让你自己去解读内容中的情感。"

这种体验在 Mati 和 Piotr 心中埋下了一个信念:未来每个人都应该能够用任何语言,以相同的情感和语调进行交流。 随着他们深入研究,发现音频问题存在于远比想象中更多的领域——内容播报、书籍缺乏音频版本、新闻文章、语言障碍,以及即将到来的机器人时代。

"当人形机器人围绕在我们身边时,语音将成为与技术交互的主要界面,"Mati 说,"这是我们想要修复和解决的问题。"

从"小众"到前沿:错位竞争的艺术

ElevenLabs 的起家路径在 2022 年显得极为不同寻常。当时市场热潮在加密货币和元宇宙,AI 领域几乎没有人在做音频——音频被视为一个巨大的利基市场。

"这个领域的研究人员非常少,"Mati 解释道,"但这恰恰是我们的优势。音频模型更小,不需要像文本模型或视觉模型那样多的算力。数据需求虽然大,但我们知道如何转录和标注这些数据。"

公司的组建方式也打破了传统。ElevenLabs 采取完全远程办公,通过 GitHub 搜寻最好的音频研究人员,不论他们身在伦敦还是华沙。他们用作品说话,通过分享样本来吸引顶尖人才加入。

另一个关键决策是快速货币化。"我们试图尽快获得收入流,以便为模型研究提供资金,"Mati 说,"我们保持健康的利润率,确保能够独立发展。但随着野心增长,我们也从外部引入了大量资金。"

全栈音频模型矩阵

ElevenLabs 的模型路线图遵循清晰的产品逻辑:

Mati 骄傲地回忆了几个"哇哦时刻":第一次完美复制自己的声音("你总觉得那不是自己的声音,但并排一听——绝对是");第一次让 AI 笑出来,登上了 Hacker News 头条;2023-2024 年哈维尔·米莱的多语言演讲病毒式传播;马修·麦康纳用西班牙语和葡萄牙语发布 newsletter,让他的家人第一次听到他用他们的母语说话。

语音代理:从客服到收入引擎

Mati 观察到语音代理正在从单纯的客服替代走向更广阔的商业场景。两个关键转变:

从成本中心到收入生成: 像 Deliveroo 这样的公司使用语音代理联系餐厅获取营业时间,从而优化骑手调度。Deutsche Telekom 使用语音代理处理入站销售——客户通过语音留下信息,而非填写表单。"结果令人惊讶:不仅流程更简单快捷,人们留下的信息量也大得多——他们会主动谈论使用场景、遇到的问题和其他正在评估的用例。"

被忽视的巨大机遇: Mati 特别强调了三个即将被语音代理彻底变革的领域:

反直觉的组织原则:400 人,400M 收入,10 人小团队

Mati 分享了 ElevenLabs 的一些非常规组织经验:

情感智能:语音的下一次飞跃

Mati 将 ElevenLabs 即将带来的下一个突破定位为情感智能(Emotional Intelligence)

"在语音代理体验中,不仅仅要正确地说出语调和情感,更要能理解对方——如果有人感到压力,它要能察觉到并给予安抚;如果有人兴奋,它要能匹配那种状态;如果有人说话慢,它会确保自己放慢速度。"

更进一步,Mati 展望了音频通用智能(Audio General Intelligence):一个模型可以在同一个连续流中播报、停顿、然后开始唱歌——用同一个声音无缝切换。

信任的范式反转

Mati 对未来的一个深刻洞察涉及信任的彻底重构:

"未来我们每个人都会有一个语音代理来预订餐厅或处理医疗预约。所有这些都需要极高的信任度——确保这就是你本人。将会有一套编码解码系统:一层用于真实的你,一层用于带水印的已认证 AI 语音,而默认情况下,其他一切都将被认为是伪造的。"

这与今天的范式完全相反——今天我们检测 AI 生成内容,未来我们将检测真实认证的 AI,并假定其他一切都是假的。

模型护城河:技术还是艺术?

在问答环节,Mati 提到了一个有趣的轶事:Jensen Huang 在看过 ElevenLabs 的模型后评论说,语音转文本是"技术",而文本转语音是"艺术"。

"要真正做好文本转语音和情感表达,"Mati 说,"你需要非常专注在这个领域,真正走到用户面前收集数据和偏好,用这些来微调模型。不同领域的落地方式也截然不同——医疗、金融服务和教育各有各的要求。"

ElevenLabs 已经组建了一支超过千人的标注团队——由前声乐教练、音乐家、艺术家组成——他们不仅标注音频的"内容"(什么),还标注"方式"(如何)——用了什么情感?声音如何描述?音乐如何描述?这种投入在 6-12 个月内不会产生价值,但在 12-24 个月内会成为核心壁垒。

结语

在 AI 智能能力急速提升的时代,Mati 的 ElevenLabs 抓住了最根本的问题:如何与 AI 进行交互? 正如他所说,"智慧的发展速度很快,但真正的瓶颈在于你如何与那种智慧沟通。" 语音和视觉将成为解锁智能价值的钥匙——而 ElevenLabs 正在构建这个界面层的全栈基础设施。从波兰的单调配音到全球数百万用户的音频平台,这不仅是技术突破的故事,更是关于让每一个声音都被真实地听见的使命。