ElevenLabs 背后的故事:语音 AI 如何成为人机交互的下一个界面
摘要
本期 a16z 专访 ElevenLabs 首席执行官 Mati Staniszewski,深入探讨了这家语音 AI 公司的创立故事、产品哲学、团队文化以及技术愿景。从波兰童年时代观看单人配音外语电影的糟糕体验出发,Mati 和童年好友 Piotr(Peter)在 2021 年创立了 ElevenLabs,旨在让机器生成的声音真正跨越"听起来像人类、让人产生情感共鸣"的门槛。三年间,团队从两人扩展到横跨 11 个城市、超过 300 名员工的远程优先组织,始终坚持以研究与产品双轮驱动的策略。Mati 分享了 ElevenLabs 独特的用人理念——寻找非传统背景中的卓越证明,取消所有职级头衔以营造低自我、高自主的扁平文化。在技术层面,ElevenLabs 的终极目标是打造一个能生成任意类型音频的统一模型,并率先通过"语音图灵测试",让 AI 不仅超级智能、超级共情,还能从原始音频中捕捉文本无法承载的信息密度与情感维度。Mati 认为,语音是唯一能真正让人心生感触的 AI 模态,而能够站在这一技术前沿、定义人类与机器交流的未来,是他持续前行的核心驱动力。
正文
跨越两个世纪的追寻:从机械模拟到情感门槛
人类对合成语音的追求可以追溯到 18 世纪。自 1700 年代起,人们就开始尝试制造"人声"。到了 20 世纪初,第一批数字合成器(Digital Synthesizer)问世。然而,这些早期的技术产物始终无法跨越一道关键的门槛——听起来真正像一个人类,并且能够触动听者的情感。
进入智能手机时代,Siri 等语音助手带来了明显的进步,实现了基本的来回对话,声音也比过去更加逼真。但 Mati 指出,即便 Siri 同样没有越过那条线。它听起来仍然不像一个真正的人,无法唤起人们的情感共鸣。这正是 ElevenLabs 要解决的核心命题。
声音作为下一个基础界面:从屏幕到沉浸
Mati 提出了一个宏大的判断:语音正在成为继鼠标、触摸屏和键盘之后,人机交互的下一个基础界面(Fundamental Interface)。
他描绘了一幅未来图景:今天大多数人的生活以屏幕为中心——笔记本电脑、手机几乎全天占据视野。而在未来,大量的交互将移入背景之中,人们将能够"更加在场"。想象一个教室场景:学生戴上耳机,就能获得最聪明的物理学家、数学家或历史学家陪伴学习。这种体验不是被动地看视频,而是通过语音与 AI 进行实时、沉浸式的互动。
更深远的影响在于文化边界的消融。Mati 指出,今天当你去到一个不同语言的国家,你无法真正沉浸于当地文化,除非你掌握那门语言。而借助语音技术,人们将能够用世界上的任何语言交流,不仅理解"说了什么",更能理解"如何说的"——感受语调、情绪和言外之意。真正的语言障碍乃至文化隔阂都将被打破,那些我们从未学过的东西将变得触手可及。
波兰电影的童年记忆:ElevenLabs 的种子
故事的起点在波兰。Mati 回忆说,在波兰观看外语电影时,所有角色的配音——无论男女——都由同一个配音员(Lector)以单调的叙述方式完成。一条声道覆盖全部对白,所有的情感、所有的语调变化全部消失。这不是语言翻译的问题,而是配音工业长期存在的陋习。
到了 2021 年,Mati 和 Piotr 发现这种糟糕的体验仍在继续。当时 Mati 在 Palantir 工作,Piotr 在 Google,两人利用周末时间共同探索各种项目。他们邀请第一批用户参与测试,不断迭代,逐步获得了清晰的信号——哪些使用场景真正能引起用户的共鸣。
2023 年 1 月正式发布时,他们已经积累了几千名等待使用产品的用户。但实际增长远超预期:几千人迅速变成了几十万用户,这个数量级远远超出了他们的第一轮预估。
研究与产品的双引擎:ElevenLabs 的产品哲学
当被问及产品哲学的指导原则时,Mati 给出了一个清晰的公式:在研究中寻找能够交付价值的方向,然后在其上叠加产品层;同时,寻找市场上真正存在的痛点。他指出,行业中存在两类公司——一类只有研究能力,另一类只有产品能力。而 ElevenLabs 试图同时拥有两者。
这种"研产一体"的模式带来了显著的加速效应:产品团队可以直接向研究团队反馈市场需要什么,研究团队则能立刻据此迭代,还能将自研模型直接部署在产品上进行测试。两端的紧密耦合形成了一个自我加速的飞轮。
寻找"卓越的证明":非传统背景的人才战略
ElevenLabs 的早期招聘刻意避开了传统路径。Mati 强调,他们寻找的不是漂亮的简历,而是"卓越的证明"(Proof of Excellence)。这个证明可以是一个开源项目,可以是在本职工作之外的创造性产出,甚至可以是任何展现了极致投入和能力的领域。
团队中几位关键成员的故事印证了这一点。公司的研究骨干之一在大学主修天体物理学(Astrophysics),硕士读的是应用物理(Applied Physics),同时他还是一名欧洲《Dota》排行榜前 250 名的顶级玩家——在游戏中投入了约 12,000 小时。另一位成员曾在白宫为拜登总统工作,被 ElevenLabs 的投资人告知"应该尽一切努力去那里工作"。还有一位成员在读硕士期间几乎不去上课,而是专注于开发自己的文本转语音(Text-to-Speech)项目,最终因为把音乐生成模型的样本发布到网上而被 Piotr 发现并招募。
Mati 坦诚地表示,全球范围内真正顶级的语音 AI 研究者可能只有 50 到 100 人。要在如此稀缺的人才池中组建团队,必须去这些人所在的地方找——无论他们在世界的哪个角落。这正是 ElevenLabs 选择"远程优先"(Remote-first)的根本原因。
无头衔的扁平文化:用低自我换取高自主
从公司创立之初只有一间 11 平米的小房间(Eleven Desk Room),到今天在全球超过 11 个城市拥有办公室和超过 300 名员工,ElevenLabs 每六个月规模翻一番。然而,由于远程优先和高度自治的小团队模式,员工常常会忘记公司实际上有多大。
Mati 在组织架构上做了一个大胆的决定:取消所有职级头衔(Titles)。这个做法的首要作用是筛选——那些冲着"某某副总裁"头衔而来的人会自动退却,而这恰恰是一件好事。没有头衔意味着没有隐含的权力偏见:任何人都可以向任何人提问、寻求帮助、提供建议或提出想法,因为不存在显性的层级结构。在 ElevenLabs,任何有想法的人都可以直接获取训练集群(Training Cluster)的访问权限,去训练自己构思的模型。
团队成员补充说,公司在招聘阶段就进行严格的文化契合度(Cultural Fit)筛选,这正是能够在快速扩张的同时保持文化不变质的关键。Mati 分享了一个有趣的案例:当他首次公开谈到取消头衔的做法后,一位前同事主动联系他说"我听说你们取消了头衔,我很喜欢这个理念,你们有什么角色?我想加入。"如今,这个人正在领导公司的招聘工作,且做得非常出色。
阴阳互补的创始组合:童年好友的信任基础
Mati 和 Piotr 是从小一起长大的挚友,彼此之间有着极高的信任。a16z 的投资人指出,真正让他们对 ElevenLabs 感到兴奋的是与两位创始人交流时的感受——"他们对未来世界有一个非常独特的愿景,而当时很多人还没有看到这一点。"
两人在性格和分工上形成了鲜明的互补。Piotr 极度专注于研究,被团队形容为"绝对的 genius"。有同事这样评价:"我认识的第二聪明的人,比他差了一大截。" Mati 则更像是"好警察"——负责对外沟通、产品策略和组织建设。这种"阴阳"组合构成了公司稳定的领导核心。
统一音频模型与语音图灵测试:ElevenLabs 的技术愿景
目前,ElevenLabs 拥有多个专用模型:音频模型、音效模型(Sound Effects)和音乐模型。但 Mati 描绘的未来方向是打造一个能够生成任意类型音频的统一模型(One Model for All Audio)。你可以想象一个场景:将语音转化为音乐,或者将歌声转化为音效——不同音频形态之间自由转换。
而 ElevenLabs 为自己设定的最大挑战,是成为第一家跨越"语音图灵测试"(Vocal Turing Test)的公司。这意味着打造一个 AI,它不仅听起来完全像人类,能够与你进行自然的来回交互,而且极其智能、极富共情能力。
Mati 进一步阐述了一个深刻的洞察:语音承载的信息密度远超文本。今天的大语言模型(LLM)在文本上训练时,使用的是人类创建的基本文本单位(Tokens)。但如果你训练一个通用音频生成模型,你是在原始音频(Raw Audio)上训练——其中包含了语调、停顿、情绪、呼吸等文本无法编码的信息。如果能够做出一个在音频领域"聪明"的模型,那么你就可以想象做出一个在任何原始数据领域都"聪明"的模型。
团队成员补充了一个富有诗意的总结:语音是唯一能够真正让人心生感触的 AI 模态。文本可以写出一首诗或一个故事,但它无法带来声音所能带来的那种情感冲击——无论是 ASMR 般的耳语,还是深沉震撼的电影旁白,声音能够真正将你传送到某个情境中,让你感受到活着的实感。
与最好的朋友们一起定义未来
当被问及个人的驱动力时,Mati 的回答既真诚又有力。看到人们使用产品时的反应是最棒的时刻之一,但他更深层的动力来自于一种幸运感——能够和最好的朋友们一起经营一家公司。如今的 ElevenLabs 团队对他来说介于"运动队"和"家庭"之间:每个人都怀着同样的热情和愿景在向前推进。
但更让他感到珍惜的,是能够站在技术前沿,成为这场变革的"声音"——去定义语音将如何成为每个人身边的基础界面。他说,"这是一个如此独特的机会,能够去创造一些东西。我们很幸运,也很开心能够成为其中的一部分。"