By miya in News — 10 Jun 2026

拆解 Voice Agent 领域的先行者:ElevenLabs 的前世今生

语音 AI 正从单一 TTS 工具扩展为覆盖转写、配音、音效、实时对话和 agent 编排的完整音频基础设施。本文梳理 ElevenLabs 从影视配音痛点出发，逐步进入多语言语音合成、声音克隆、长内容制作、语音转写和 Conversational AI 的产品演进路径。其发展说明语音模型公司正在向实时交互层延伸，但同时面临 deepfake、声音版权、监管合规和商业场景边界等挑战。评估这类平台时，应关注模型自然度、低延迟能力、多语言覆盖、企业治理能力、内容安全机制和与语音 agent 工作流的集成深度。

今天来看一个把整条音频栈几乎吃干抹净的庞然大物——ElevenLabs。

把它放进 voice agent 系列里是合适的:今天你做语音对话,从语音转文字、到语音合成、到对话编排,绕开 ElevenLabs 的概率很小。它在 2026 年初拿到了 110 亿美元估值,据报道是欧洲最值钱、最快长起来的 AI 公司之一。但这家公司不是一开始就长这样的。这篇不讲技术原理,就把它的来路、产品怎么一步步铺开、钱怎么一轮轮拿进来,按时间线捋清楚。

01. 起点:两个波兰人和一个关于配音的执念

ElevenLabs 的起源故事,比大多数 AI 公司都更"私人"一点。

两位创始人是 Mati Staniszewski(CEO)和 Piotr Dąbkowski(CTO),据多方资料,他们是华沙哥白尼高中的同学,从青少年时期就是好友。后来路径分开:

Mati 在伦敦帝国理工读数学,之后去了 Palantir 做部署策略(deployment strategist),负责把技术落地到企业和政府;
Piotr 在牛津读工程本科、剑桥读硕士,做 AI 和机器学习,据报道其图像检测方向的论文上过 NeurIPS,职业生涯待过 Opera、Google(有资料称是 DeepMind)等。

一个偏商业落地,一个偏 AI 研究,这个组合后来被反复证明是关键。

至于动机,被讲过很多遍但确实是真的:他们在波兰长大,而波兰的外国影视配音有个特色——整部电影常常由一个(男性)旁白声音盖在原声上念完所有角色。在这种配音里泡大的人,很难不想去修它。据其投资人和媒体记述,ElevenLabs 最初的愿景就是让影视配音能用原本的声音、在所有语言里自然地完成。公司 2022 年 4 月到 5 月间成立,定位是一家"研究优先"的公司。

他们早期原型的差异化点也很具体:不是只把字念出来,而是去复刻人声里那些停顿、笑声、语气词这类"不完美"的东西。事实证明,正是这些细节让合成声音听起来像人。

02. 2022–2023:从 beta 到一百万用户

公司起步阶段其实并不顺。据 Sifted 等报道,2023 年初他们一度连 200 万美元的 pre-seed 都凑得很吃力——当时 AI 语音在欧洲还是个偏冷门的方向。

但产品一放出来,市场反应极快:

2023 年 1 月,ElevenLabs 公开发布 beta 平台;
据其自述,beta 上线大约五个月内,用户就突破了一百万;
团队从 2023 年 1 月的 8 个人,当年就快速扩张到数十人。

这个早期增长是后面所有融资和产品扩张的底气。一个做配音工具的小团队,突然发现自己的 TTS 被有声书、游戏、自媒体、无障碍等一大堆场景抢着用——这逼着它从"配音工具"往"通用音频基础设施"上走。

03. 产品历程:从一个 TTS 模型,长成整条音频栈

这是这家公司最值得拆的部分。它的产品扩张节奏在 2024 到 2026 年间快得有点夸张。我按时间线捋,你能清楚看到它怎么从"念字"一路吞到"对话 + 音乐 + 转写 + 配音 + agent"。

2023:把 TTS 这件事做到顶。

早期主打英文、极致自然度的 TTS;
2023 年 8 月,推出据其描述"最稳定、最像人"的 TTS 模型,并开始走多语言;
2023 年 11 月,推出高质量、低延迟的模型(Turbo 线),开始为实时场景铺路。

2024:从"声音"扩到"音频生产"。

上线配音(Dubbing,据报道覆盖约 32 种语言)、声音设计、AI 音效、Projects 长内容编辑器、声音库等一整套创作工具;
2024 年 11 月,推出 Conversational AI 2.0——这是它正式踏进"语音对话 agent"这条线的标志;
2024 年 12 月,推出超低延迟的 Flash v2.5,延迟约 75ms,成为它主推给实时对话场景的模型。

2025:全面铺开,从单点模型走向"三大支柱"。

2 月,推出语音转文字模型 Scribe,补上了音频栈里"听"的那一环;同期还有面向有声书/朗读的 Reader 方向;
6 月,发布旗舰 TTS Eleven v3(alpha):支持 70 多种语言,引入 Audio Tags(用 [whispers]、[sighs]、[shouts] 这种方括号指令直接指挥情感和表演),还有把多个声音编织成对话的 Text-to-Dialogue。需要注意:据其官方博客,v3 当时是 alpha,延迟更高、更吃 prompt 工程,明确不建议用于实时和对话场景,实时仍推荐 v2.5 Turbo/Flash;
7 月,Conversational AI 引入 WebRTC,改善实时音频;
8 月,密集发布音乐线:Eleven Music(强调用授权数据训练的商用级音乐模型)、Music API、Video-to-Music、面向文本对话 agent 的 Chat Mode;
9 月,把 Conversational AI 正式更名为 ElevenLabs Agents;推出 Productions 托管服务(配音 + 字幕 + 人工编辑);
10 月,推出 Agent Workflows,做更复杂的对话流程设计;
11 月,发布 Scribe v2 / Scribe v2 Realtime:实时版延迟约 150ms 以下、据其说明覆盖约 90 种语言,直接服务于 agent 这种要"边听边接"的场景;同月还上线了授权名人声音的 Iconic Marketplace,以及图像 + 视频生成的统一 beta;
12 月,Agents 平台接入 WhatsApp,做语音 + 文字的全渠道。

2026 初: 继续迭代转写模型(1 月有更高精度的版本),并把 Eleven v3 推到正式可用(GA)。据其官网和多篇综述,公司现在把自己组织成三大支柱:ElevenAgents(对话 agent 平台)、ElevenCreative(创作工具)、ElevenAPI(给开发者的低延迟语音基础设施),底层是 v3、Flash v2.5、Scribe、Eleven Music 这几条模型线。它还有个面向个人的语音助手实验项目 11ai。

一句话概括这条产品线的走向:它从"把文字念得像人"出发,先补齐"听"(Scribe)和"演"(v3 的 audio tags),再补"对话编排"(Agents),最后连音乐、音效、视频都纳进来,目标很明确——做"互联网的音频层"。

04. 融资历程:从凑不齐 200 万,到 110 亿估值

把融资单独拎出来看,这条曲线比产品线还陡。据公司官方与多家媒体、数据平台:

Pre-seed(2023 年 1 月):200 万美元,由 Credo Ventures 领投,Concept Ventures 参与。就是前面说的那轮"差点凑不齐"的钱;
Series A(2023 年中):约 1900 万美元,Andreessen Horowitz(a16z)进入(据数据平台,a16z 首次投资在 2023 年 5 月);
Series B(2024 年 1 月):约 8000 万美元,Sequoia 在这一轮首次进入(据数据平台为 2024 年 1 月 22 日),公司由此跨入独角兽;据报道这轮投后估值约 11 亿美元(此数字以媒体报道为准);
Series C(2025 年 1 月):1.8 亿美元,由 a16z 和 ICONIQ Growth 联合领投,NEA、World Innovation Lab、Valor、Endeavor Catalyst、Lunate 等参与,估值 33 亿美元;
Series D(2026 年 2 月 4 日):5 亿美元,由 Sequoia 领投(合伙人 Andrew Reed 进入董事会),a16z 据称把投资翻了四倍、ICONIQ 翻了三倍,新进 Lightspeed、Evantic Capital、BOND 等,估值 110 亿美元。

几个值得记的点:

估值轨迹: 从 B 轮约 11 亿,到 C 轮 33 亿,再到 D 轮 110 亿——据综述,两年多里估值涨了约 10 倍;
总融资额: 据公司官方口径,D 轮后累计约 7.81 亿美元(五轮);数据平台 Tracxn 算上二级/tender 等给出的是约 8.11 亿美元(八轮)。两个数差在统计口径,引用时注明来源即可;
Nvidia: 据 CEO 说法,Nvidia 在 2025 年 9 月投了这家公司;
IPO: 据 CNBC 等报道,公司在 D 轮时已被提及在考虑 IPO。

05. 数字与版图:营收、客户、全球化

光看融资容易飘,得配上业务数字才看得出这轮估值有没有支撑。据多方资料(部分为公司自述,未经独立审计):

营收(ARR): 2024 年底约 9000 万美元(据报道同比涨约 260%),2025 年跨过约 3.3 亿美元,2026 年初据称已超 5 亿美元——也就是不到五个月又涨了 50% 以上;
客户: 据其综述资料,客户覆盖约 60% 的财富 500 强;ElevenAPI 被 Meta、Epic Games、Salesforce、MasterClass、Harvey 等公司使用,据其说法支撑的终端用户超过十亿;
早期内容侧合作: 媒体出版方面有 The New Yorker、Washington Post、The Atlantic,游戏方面有 Paradox、Cloud Imperium Games 等;
团队与全球化: 总部在伦敦,据资料 2026 年员工约 400 人;办公室除欧洲外,还铺到了巴西、墨西哥、印度、韩国、日本和美国;
合规姿态: 据其面向企业的材料,具备 SOC 2、HIPAA 支持、GDPR、欧盟数据驻留、零留存等,这是它能切进受监管行业的关键。

可以看到,D 轮 110 亿这个数字背后,是营收高速增长 + 大客户渗透 + 全球铺开三件事在撑,不完全是估值泡沫。

06. 绕不开的争议:deepfake、声音版权与监管

一家做"像人的声音"的公司,从第一天起就站在风口浪尖上,这部分不能不提。

声音克隆被滥用: 早在 2023 年用户暴涨期,平台的声音克隆能力就被拿去伪造名人、明星的声音,deepfake 风险是它一直要应对的问题;
它的应对: 据其资料,推出了 AI Speech Classifier,让任何人都能验证一段音频是不是它平台生成的;在企业侧靠前述合规体系建立信任;
版权这条线的取舍: 在音乐这块它特意强调 Eleven Music 用授权数据训练,并搞了名人声音的授权市场(Iconic Marketplace)——可以看出它在主动给"声音/音乐的版权"划合规边界,这既是道德选择也是商业护城河;
监管变量: 据分析,监管走向和科技巨头的竞争,是观察这家公司前景时最该盯的两个外部变量。

这些争议不是花边,而是这家公司商业模式的内生部分:它越往"像真人"和"任意声音"走,合规和信任的成本就越高。

07. 现在的位置

把时间线收到当下(2026 年 5 月底):ElevenLabs 已经不是那个做配音工具的波兰小团队,而是一家估值 110 亿、营收过 5 亿 ARR、把语音转文字到语音合成到对话 agent 整条栈握在手里的公司。它给自己的定位是"互联网的音频层",而从产品和融资的轨迹看,这个定位至少在 voice agent 这个领域,它已经站到了最前面。

对做技术选型的人来说,理解它的来路有现实意义:你今天接的每一个 ElevenLabs 模型——Flash v2.5 的低延迟、Scribe 的实时转写、v3 的表演级合成、Agents 的编排——都是这条十年友情起步、四年狂奔铺开的产品线上的一个节点。

👉更智能、更简单的电话工具，就用 Voicefox