ElevenLabs 的 Mati Staniszewski：语音如何成为 AI 的界面

cover Sequoia Capital · 2026-05-06🎬 在 YouTube 观看原视频 →>

摘要

Mati Staniszewski 是 ElevenLabs 的联合创始人兼 CEO，这家公司从 2022 年起步，如今已拥有超过 400 名员工、年收入超过 4 亿美元，成为音频 AI 领域的绝对领军者。在 Sequoia AI Ascent 2026 上，Mati 讲述了 ElevenLabs 从波兰童年经历——所有外国电影被同一个单调男声配音的痛苦记忆——到构建音频前沿模型的创业故事。ElevenLabs 的模型矩阵覆盖文本转语音（Text-to-Speech）、语音转文本（Speech-to-Text）、配音本地化、语音引擎和音乐生成等全栈音频能力。Mati 揭示了语音代理人（Voice Agent）领域的两个关键趋势：从客服转向收入生成（如 Deliveroo 和 Deutsche Telekom 的案例），以及被忽视的巨大机遇——公民服务（乌克兰政府已在部署）、教育和医疗。他还分享了 ElevenLabs 的反直觉组织经验：每个非技术团队嵌入工程师、无职级制度、团队控制在 10 人以下。他对未来的核心判断是：语音和视觉将成为连接人类与 AI 智能的关键界面，而情感智能——理解用户的压力、情绪并做出相应回应——将是下一步革命性的突破。在信任层面，Mati 预言了一种范式反转：未来我们将检测"真实认证的 AI"，而一切未经验证的都将被假定为伪造。

正文

童年记忆：一个声音配所有电影

ElevenLabs 的故事始于一个非常个人化的经历。Mati 和他的联合创始人 Piotr（他们从高中起就是最好的朋友）都来自波兰华沙郊区。在波兰，有一个奇特的现象：所有外国电影的配音都使用同一个人声——无论是男性角色还是女性角色，全部由同一个单调的声音朗读。

"你可以想象这是多么糟糕的体验，"Mati 回忆道，"这种配音方式刻意保持单一音调，让你自己去解读内容中的情感。"

这种体验在 Mati 和 Piotr 心中埋下了一个信念：未来每个人都应该能够用任何语言，以相同的情感和语调进行交流。 随着他们深入研究，发现音频问题存在于远比想象中更多的领域——内容播报、书籍缺乏音频版本、新闻文章、语言障碍，以及即将到来的机器人时代。

"当人形机器人围绕在我们身边时，语音将成为与技术交互的主要界面，"Mati 说，"这是我们想要修复和解决的问题。"

从"小众"到前沿：错位竞争的艺术

ElevenLabs 的起家路径在 2022 年显得极为不同寻常。当时市场热潮在加密货币和元宇宙，AI 领域几乎没有人在做音频——音频被视为一个巨大的利基市场。

"这个领域的研究人员非常少，"Mati 解释道，"但这恰恰是我们的优势。音频模型更小，不需要像文本模型或视觉模型那样多的算力。数据需求虽然大，但我们知道如何转录和标注这些数据。"

公司的组建方式也打破了传统。ElevenLabs 采取完全远程办公，通过 GitHub 搜寻最好的音频研究人员，不论他们身在伦敦还是华沙。他们用作品说话，通过分享样本来吸引顶尖人才加入。

另一个关键决策是快速货币化。"我们试图尽快获得收入流，以便为模型研究提供资金，"Mati 说，"我们保持健康的利润率，确保能够独立发展。但随着野心增长，我们也从外部引入了大量资金。"

全栈音频模型矩阵

ElevenLabs 的模型路线图遵循清晰的产品逻辑：

文本转语音（TTS）： 理解文本上下文，自动赋予正确的语调和情感——快乐的内容听起来快乐，对话自然展现
语音转文本（STT）： 高质量的转录能力
配音与本地化： 将 TTS、STT 和翻译模型融合，实现跨语言的内容转换
实时流式音频模型 + 语音引擎： 支持语音代理的实时交互体验，包括轮次接管和编排
音乐生成： 音频领域最难的模态之一

Mati 骄傲地回忆了几个"哇哦时刻"：第一次完美复制自己的声音（"你总觉得那不是自己的声音，但并排一听——绝对是"）；第一次让 AI 笑出来，登上了 Hacker News 头条；2023-2024 年哈维尔·米莱的多语言演讲病毒式传播；马修·麦康纳用西班牙语和葡萄牙语发布 newsletter，让他的家人第一次听到他用他们的母语说话。

语音代理：从客服到收入引擎

Mati 观察到语音代理正在从单纯的客服替代走向更广阔的商业场景。两个关键转变：

从成本中心到收入生成： 像 Deliveroo 这样的公司使用语音代理联系餐厅获取营业时间，从而优化骑手调度。Deutsche Telekom 使用语音代理处理入站销售——客户通过语音留下信息，而非填写表单。"结果令人惊讶：不仅流程更简单快捷，人们留下的信息量也大得多——他们会主动谈论使用场景、遇到的问题和其他正在评估的用例。"

被忽视的巨大机遇： Mati 特别强调了三个即将被语音代理彻底变革的领域：

公民服务： 乌克兰政府已经部署了语音代理，公民可以致电获取前线信息、教育资源和安全建议。"乌克兰可能是这方面最先进的政府之一。"
教育： 想象一位像 Andrej Karpathy 或 Richard Feynman 这样的顶级导师，24/7 随时可用，你可以通过耳机向他们提问学习物理。MasterClass 最近推出了互动版本——Gordon Ramsay 可以在你做饭时"吼"你进步，Chris Voss 可以与你实时谈判训练。
医疗： 语音交互在医疗预约和信息传达中的巨大潜力。

反直觉的组织原则：400 人，400M 收入，10 人小团队

Mati 分享了 ElevenLabs 的一些非常规组织经验：

每个非技术团队嵌入工程师： "我们的 HR 团队、市场团队、法务团队都有一个工程师，帮助他们构建自动化、提升效率。在 vibe coding 时代，非技术人员也可以编码，但代码审查、安全基础设施等要求需要技术资源来保证质量。"
无职级制度： 公司没有头衔，完全优化影响力而非资历。"你成长的速度取决于你自己。"
团队规模控制： 每个团队控制在 10 人以下，保持扁平化，快速移动。
实用创新： 比如在市场团队开发了一套评分系统——根据客户规模分配可给出的法律条款"点数"，完全自动化了合同谈判中的让步决策。

情感智能：语音的下一次飞跃

Mati 将 ElevenLabs 即将带来的下一个突破定位为情感智能（Emotional Intelligence）：

"在语音代理体验中，不仅仅要正确地说出语调和情感，更要能理解对方——如果有人感到压力，它要能察觉到并给予安抚；如果有人兴奋，它要能匹配那种状态；如果有人说话慢，它会确保自己放慢速度。"

更进一步，Mati 展望了音频通用智能（Audio General Intelligence）：一个模型可以在同一个连续流中播报、停顿、然后开始唱歌——用同一个声音无缝切换。

信任的范式反转

Mati 对未来的一个深刻洞察涉及信任的彻底重构：

"未来我们每个人都会有一个语音代理来预订餐厅或处理医疗预约。所有这些都需要极高的信任度——确保这就是你本人。将会有一套编码解码系统：一层用于真实的你，一层用于带水印的已认证 AI 语音，而默认情况下，其他一切都将被认为是伪造的。"

这与今天的范式完全相反——今天我们检测 AI 生成内容，未来我们将检测真实认证的 AI，并假定其他一切都是假的。

模型护城河：技术还是艺术？

在问答环节，Mati 提到了一个有趣的轶事：Jensen Huang 在看过 ElevenLabs 的模型后评论说，语音转文本是"技术"，而文本转语音是"艺术"。

"要真正做好文本转语音和情感表达，"Mati 说，"你需要非常专注在这个领域，真正走到用户面前收集数据和偏好，用这些来微调模型。不同领域的落地方式也截然不同——医疗、金融服务和教育各有各的要求。"

ElevenLabs 已经组建了一支超过千人的标注团队——由前声乐教练、音乐家、艺术家组成——他们不仅标注音频的"内容"（什么），还标注"方式"（如何）——用了什么情感？声音如何描述？音乐如何描述？这种投入在 6-12 个月内不会产生价值，但在 12-24 个月内会成为核心壁垒。

结语

在 AI 智能能力急速提升的时代，Mati 的 ElevenLabs 抓住了最根本的问题：如何与 AI 进行交互？ 正如他所说，"智慧的发展速度很快，但真正的瓶颈在于你如何与那种智慧沟通。" 语音和视觉将成为解锁智能价值的钥匙——而 ElevenLabs 正在构建这个界面层的全栈基础设施。从波兰的单调配音到全球数百万用户的音频平台，这不仅是技术突破的故事，更是关于让每一个声音都被真实地听见的使命。