ElevenLabs 的 Mati Staniszewski:语音如何成为 AI 的界面

摘要
Mati Staniszewski 是 ElevenLabs 的联合创始人兼 CEO,这家公司从 2022 年起步,如今已拥有超过 400 名员工、年收入超过 4 亿美元,成为音频 AI 领域的绝对领军者。在 Sequoia AI Ascent 2026 上,Mati 讲述了 ElevenLabs 从波兰童年经历——所有外国电影被同一个单调男声配音的痛苦记忆——到构建音频前沿模型的创业故事。ElevenLabs 的模型矩阵覆盖文本转语音(Text-to-Speech)、语音转文本(Speech-to-Text)、配音本地化、语音引擎和音乐生成等全栈音频能力。Mati 揭示了语音代理人(Voice Agent)领域的两个关键趋势:从客服转向收入生成(如 Deliveroo 和 Deutsche Telekom 的案例),以及被忽视的巨大机遇——公民服务(乌克兰政府已在部署)、教育和医疗。他还分享了 ElevenLabs 的反直觉组织经验:每个非技术团队嵌入工程师、无职级制度、团队控制在 10 人以下。他对未来的核心判断是:语音和视觉将成为连接人类与 AI 智能的关键界面,而情感智能——理解用户的压力、情绪并做出相应回应——将是下一步革命性的突破。在信任层面,Mati 预言了一种范式反转:未来我们将检测"真实认证的 AI",而一切未经验证的都将被假定为伪造。
正文
童年记忆:一个声音配所有电影
ElevenLabs 的故事始于一个非常个人化的经历。Mati 和他的联合创始人 Piotr(他们从高中起就是最好的朋友)都来自波兰华沙郊区。在波兰,有一个奇特的现象:所有外国电影的配音都使用同一个人声——无论是男性角色还是女性角色,全部由同一个单调的声音朗读。
"你可以想象这是多么糟糕的体验,"Mati 回忆道,"这种配音方式刻意保持单一音调,让你自己去解读内容中的情感。"
这种体验在 Mati 和 Piotr 心中埋下了一个信念:未来每个人都应该能够用任何语言,以相同的情感和语调进行交流。 随着他们深入研究,发现音频问题存在于远比想象中更多的领域——内容播报、书籍缺乏音频版本、新闻文章、语言障碍,以及即将到来的机器人时代。
"当人形机器人围绕在我们身边时,语音将成为与技术交互的主要界面,"Mati 说,"这是我们想要修复和解决的问题。"
从"小众"到前沿:错位竞争的艺术
ElevenLabs 的起家路径在 2022 年显得极为不同寻常。当时市场热潮在加密货币和元宇宙,AI 领域几乎没有人在做音频——音频被视为一个巨大的利基市场。
"这个领域的研究人员非常少,"Mati 解释道,"但这恰恰是我们的优势。音频模型更小,不需要像文本模型或视觉模型那样多的算力。数据需求虽然大,但我们知道如何转录和标注这些数据。"
公司的组建方式也打破了传统。ElevenLabs 采取完全远程办公,通过 GitHub 搜寻最好的音频研究人员,不论他们身在伦敦还是华沙。他们用作品说话,通过分享样本来吸引顶尖人才加入。
另一个关键决策是快速货币化。"我们试图尽快获得收入流,以便为模型研究提供资金,"Mati 说,"我们保持健康的利润率,确保能够独立发展。但随着野心增长,我们也从外部引入了大量资金。"
全栈音频模型矩阵
ElevenLabs 的模型路线图遵循清晰的产品逻辑:
- 文本转语音(TTS): 理解文本上下文,自动赋予正确的语调和情感——快乐的内容听起来快乐,对话自然展现
- 语音转文本(STT): 高质量的转录能力
- 配音与本地化: 将 TTS、STT 和翻译模型融合,实现跨语言的内容转换
- 实时流式音频模型 + 语音引擎: 支持语音代理的实时交互体验,包括轮次接管和编排
- 音乐生成: 音频领域最难的模态之一
Mati 骄傲地回忆了几个"哇哦时刻":第一次完美复制自己的声音("你总觉得那不是自己的声音,但并排一听——绝对是");第一次让 AI 笑出来,登上了 Hacker News 头条;2023-2024 年哈维尔·米莱的多语言演讲病毒式传播;马修·麦康纳用西班牙语和葡萄牙语发布 newsletter,让他的家人第一次听到他用他们的母语说话。
语音代理:从客服到收入引擎
Mati 观察到语音代理正在从单纯的客服替代走向更广阔的商业场景。两个关键转变:
从成本中心到收入生成: 像 Deliveroo 这样的公司使用语音代理联系餐厅获取营业时间,从而优化骑手调度。Deutsche Telekom 使用语音代理处理入站销售——客户通过语音留下信息,而非填写表单。"结果令人惊讶:不仅流程更简单快捷,人们留下的信息量也大得多——他们会主动谈论使用场景、遇到的问题和其他正在评估的用例。"
被忽视的巨大机遇: Mati 特别强调了三个即将被语音代理彻底变革的领域:
- 公民服务: 乌克兰政府已经部署了语音代理,公民可以致电获取前线信息、教育资源和安全建议。"乌克兰可能是这方面最先进的政府之一。"
- 教育: 想象一位像 Andrej Karpathy 或 Richard Feynman 这样的顶级导师,24/7 随时可用,你可以通过耳机向他们提问学习物理。MasterClass 最近推出了互动版本——Gordon Ramsay 可以在你做饭时"吼"你进步,Chris Voss 可以与你实时谈判训练。
- 医疗: 语音交互在医疗预约和信息传达中的巨大潜力。
反直觉的组织原则:400 人,400M 收入,10 人小团队
Mati 分享了 ElevenLabs 的一些非常规组织经验:
- 每个非技术团队嵌入工程师: "我们的 HR 团队、市场团队、法务团队都有一个工程师,帮助他们构建自动化、提升效率。在 vibe coding 时代,非技术人员也可以编码,但代码审查、安全基础设施等要求需要技术资源来保证质量。"
- 无职级制度: 公司没有头衔,完全优化影响力而非资历。"你成长的速度取决于你自己。"
- 团队规模控制: 每个团队控制在 10 人以下,保持扁平化,快速移动。
- 实用创新: 比如在市场团队开发了一套评分系统——根据客户规模分配可给出的法律条款"点数",完全自动化了合同谈判中的让步决策。
情感智能:语音的下一次飞跃
Mati 将 ElevenLabs 即将带来的下一个突破定位为情感智能(Emotional Intelligence):
"在语音代理体验中,不仅仅要正确地说出语调和情感,更要能理解对方——如果有人感到压力,它要能察觉到并给予安抚;如果有人兴奋,它要能匹配那种状态;如果有人说话慢,它会确保自己放慢速度。"
更进一步,Mati 展望了音频通用智能(Audio General Intelligence):一个模型可以在同一个连续流中播报、停顿、然后开始唱歌——用同一个声音无缝切换。
信任的范式反转
Mati 对未来的一个深刻洞察涉及信任的彻底重构:
"未来我们每个人都会有一个语音代理来预订餐厅或处理医疗预约。所有这些都需要极高的信任度——确保这就是你本人。将会有一套编码解码系统:一层用于真实的你,一层用于带水印的已认证 AI 语音,而默认情况下,其他一切都将被认为是伪造的。"
这与今天的范式完全相反——今天我们检测 AI 生成内容,未来我们将检测真实认证的 AI,并假定其他一切都是假的。
模型护城河:技术还是艺术?
在问答环节,Mati 提到了一个有趣的轶事:Jensen Huang 在看过 ElevenLabs 的模型后评论说,语音转文本是"技术",而文本转语音是"艺术"。
"要真正做好文本转语音和情感表达,"Mati 说,"你需要非常专注在这个领域,真正走到用户面前收集数据和偏好,用这些来微调模型。不同领域的落地方式也截然不同——医疗、金融服务和教育各有各的要求。"
ElevenLabs 已经组建了一支超过千人的标注团队——由前声乐教练、音乐家、艺术家组成——他们不仅标注音频的"内容"(什么),还标注"方式"(如何)——用了什么情感?声音如何描述?音乐如何描述?这种投入在 6-12 个月内不会产生价值,但在 12-24 个月内会成为核心壁垒。
结语
在 AI 智能能力急速提升的时代,Mati 的 ElevenLabs 抓住了最根本的问题:如何与 AI 进行交互? 正如他所说,"智慧的发展速度很快,但真正的瓶颈在于你如何与那种智慧沟通。" 语音和视觉将成为解锁智能价值的钥匙——而 ElevenLabs 正在构建这个界面层的全栈基础设施。从波兰的单调配音到全球数百万用户的音频平台,这不仅是技术突破的故事,更是关于让每一个声音都被真实地听见的使命。