为什么语音将成为技术的根本界面：对话 ElevenLabs 的 Mati Staniszewski

cover Sequoia Capital · 2025-07-01🎬 在 YouTube 观看原视频 →>

摘要

ElevenLabs 联合创始人兼 CEO Mati Staniszewski 分享了一个 AI 创业的"逆袭"故事：当所有人都预测这家 AI 语音公司会被大模型厂商碾压时，ElevenLabs 不仅活了下来，还持续引领着 AI 音频的边界。Mati 揭示了其中的关键——极度聚焦。无论作为公司方向、研究投入还是产品路线，ElevenLabs 始终围绕"音频"这一个主题深度发掘。

在技术层面，Mati 详细解释了语音 AI 与文本 LLM 的本质差异：数据层面（高质量语音数据稀缺、缺乏对应文本标注、缺少"怎么说"的情绪标注）、模型架构层面（需要同时理解文本上下文和声音特征并融合输出）、以及人才层面（全球顶尖音频研究者可能只有 50-100 人）。他还分享了从一次失败的波兰语电影配音体验中获得创业灵感的起源故事、为什么"专业消费者+自上而下"的双轨市场策略推动了多轮增长飞轮、以及为什么他相信人类级别的语音交互到来的速度将远超预期。

正文

与基础模型厂商的共存之道："极度聚焦"

Mati 直面了一个尖锐的问题：几年前业界普遍认为 ElevenLabs 会成为基础模型厂商多模态扩张的"牺牲品"。事实却恰恰相反——ElevenLabs 持续在音频质量上保持领先。Mati 将成功归结为三个字：stay focused。

首先是公司层面——ElevenLabs 始终专注于音频，没有被扩展到文本、图像、视频等"更大"的市场诱惑所分散。其次是研究层面——联合创始人 Piotr（Mati 称其为"天才"）在早期就发现，音频领域的研究投入远远不足：大部分人涌向 LLM 文本和图像（因为视觉结果更直观、更令人兴奋），而扩散模型（Diffusion Models）、Transformer 等突破性架构在音频领域尚未被高效应用。ElevenLabs 率先将这些技术引入文本转语音，使模型首次能够理解文本语境并传递情感和语调——这是与传统"机械朗读"的本质分水岭。

第三是产品层面——"模型之外"的一层至关重要。无论是为配音演员设计的工作流、为有声书提供的端到端制作工具，还是为智能体打造的对话式语音体验，这些产品层共同构成了基础模型厂商难以复制的差异化壁垒。

数据：语音 AI 的隐形瓶颈

Mati 指出，音频 AI 与文本 LLM 的最大差异之一在数据。文本领域可以抓取公开可用的互联网文本进行训练，但高质量的音频数据极度稀缺。更棘手的是三个叠加问题：

音频-文本对齐：大多数高质量音频并没有准确对应的文本转录。
"怎么说"信息缺失：除了说话内容，还需要标注语气、情感、非语言元素（如笑声、停顿、强调），这类标注数据几乎不存在。
质量控制成本：ElevenLabs 建立了语音教练（voice coaches）培训的数据标注团队——先由标注员标记情绪和表达，再由语音教练审核——这种手工作坊式的流程在文本领域完全不必要。

Mati 提到，他们早期花了大量时间构建自研的语音转文本（Speech-to-Text）模型和标注流水线，这本质上是一个"先造工具再生产内容"的过程。

模型架构：双流融合的独特挑战

与文本模型只需要预测下一个 token 不同，语音模型面临独特的双向依赖：一句话的语调可能受制于后面的内容——例如"多么美好的一天"可以是真诚的赞美，也可以是讽刺的反话，语调完全不同。这意味着模型需要具备对上下文的全局理解。

ElevenLabs 的架构采用了双流设计：一个流处理文本输入（理解语义和语境），另一个流处理声音特征（音色、风格、情绪）。两个流在模型内部融合后产生最终输出。他们没有预先设定"男/女/年龄"等特征标签——而是让模型自己决定哪些声学特征最重要，在一个解耦的潜空间中学习表示。

人才密度：全球仅 50-100 人

Mati 分享了一个惊人的数字：全球真正优秀的音频 AI 研究者大概只有 50-100 人——这个数字来自开源贡献、学术论文和行业经验。相比之下，LLM 领域的研究者数以万计。这意味着 ElevenLabs 的人才策略必须与众不同：

完全远程：为了吸引全球任何角落的顶尖人才，公司从一开始就远程化运营。
从研究到部署的极短周期：让研究者能看到自己的工作被数百万用户直接使用——这种即时反馈是吸引顶级研究者的关键。
研究员与部署工程师的清晰分层：研究员负责全新架构和创新突破；研究工程师负责模型优化、规模化部署——许多公司会将后者也称为研究员，但 ElevenLabs 保持了角色的清晰边界。

最终他们建立了一支约 15 人的研究团队——在音频 AI 这一窄深领域已经是全球顶级密度。

创业起源：从波兰配音羞辱到颠覆性创意

Mati 和联合创始人 Piotr 相识于 15 年前波兰华沙的高中 IB 课程，因对数学的共同热爱成为挚友，经历了同住、同学习、同工作、同旅行的 15 年——即便在公司高速增长中也刻意维持着个人层面的联结。

ElevenLabs 的灵感来自于 2021 年底的一个时刻：Piotr 的女友不懂英语，他们想一起看一部英语电影，切换到波兰语配音后发现——所有角色（无论男女老幼）都由同一位叙述者用单调的机械声朗读。Mati 回忆说，"这是极其糟糕的体验，而它至今仍在使用。"这个来自童年的共同记忆触发了他们的决心："这会改变的。"

早期探索中，开源项目 Tortoise TTS 给团队带来了关键的验证——虽然不稳定，但它展示了声音复刻和自然语音生成的可能性。从那时起，ElevenLabs 将重心转向了"从头开始创新，将 Transformer 和扩散模型引入音频领域"。

增长飞轮：专业消费者 + 自上而下的双轨战略

Mati 阐释了 ElevenLabs 独特的市场策略——从"专业消费者"（prosumer）切入，再向企业级垂降。这种双轨制由两个逻辑驱动：

专业消费者（内容创作者、播客制作者、有声书作者）对新技术的拥抱速度远快于企业。他们不在乎繁琐的采购流程和合规要求，只关心"这东西好用吗？"。
更重要的是，专业消费者的创造力常常超出公司的预期——他们会将技术用于你从未想过的场景，从而发现新的市场机会。

Mati 描绘了 ElevenLabs 历史上的几次"传播时刻"：第一个 Beta 模型发布时（2023 年初），有声书作者成为第一批狂热用户——有人竟然将整本书粘贴进当时只支持推文长度的小文本框中；随后是"第一个会笑的 AI"博客传播；再到哈利·波特巴黎世家等病毒式视频——这些来自用户自发创造的内容，构成了不可阻挡的自传播力量。每一个模型的重大升级都重复着这一循环：发布新模型 → 专业消费者快速扩散 → 企业客户跟进 → 产品可靠性和功能增强 → 下一个模型升级。

语音界面的未来

Mati 相信语音将成为人类与技术的根本界面——比文本更快（说话速度是打字的 3 倍）、比触屏更自然（解放双手和视线）。他特别指出，AI 在打破语言障碍方面的潜力——不仅翻译文字，更传递情感、语调和个性化的声音特征，真正实现跨语言的情感传递。

当被问及如何在基础模型的持续追赶中保持领先时，Mati 的回答直白而务实：保持对最新突破的极端敏感——"当新成果出来时，你有 24 小时的时间窗口开始将其整合到你的产品中。那一刻就是你保持领先的最重要时机。"这种对创新节奏的真诚坦率，或许正是 ElevenLabs 能在巨头环伺中持续突围的底层密码。