拆解 Voice Agent 领域的先行者:Vapi 的前世今生(二)

企业语音 agent 的难点不只在模型能力,而在 STT、LLM、TTS、电话网络、工具调用、打断处理和转人工之间形成稳定低延迟的生产级管线。本文分析 Vapi 从早期语音陪聊原型转向语音 agent 基础设施的过程,说明“模型与真实电话场景之间的编排层”为什么成为独立价值。其模块化路线允许企业混搭不同转写、模型和合成供应商,同时把对话控制、电话接入和治理能力交给平台处理。落地评估应重点看可靠性、控制粒度、合规能力、规模化通话表现、供应商中立性以及是否能支撑高风险客户服务流程。

拆解 Voice Agent 领域的先行者:Vapi 的前世今生(二)

📖 目录导航

上一篇拆 ElevenLabs,那是一家造模型的公司——从 TTS 一路造到转写、音乐、对话模型。这一篇换个位置,看一家不造模型、专做编排的公司:Vapi。

这两家放在一起看特别有意思。ElevenLabs 想成为"互联网的音频层",握的是模型;Vapi 想成为语音 agent 的"基础设施和编排层",握的是把一堆模型黏合成一个能打电话的 agent 的那套管道。一个往下扎到模型,一个横在模型和"真正接起电话的客户"之间。这篇不讲它怎么造,讲它怎么来的、到底是个什么东西、靠什么打进了生产线、钱怎么拿的、以及它在这个挤满玩家的赛道里站在哪。

01. 起源:一个散步时的 AI 树洞,和一次"被迫"的转型

Vapi 的起点不在语音,甚至不在 to B。

两位创始人是 Jordan Dearsley(CEO)和 Nikhil Gupta(CTO),据报道两人是滑铁卢大学的同学。在做 Vapi 之前,他们带着一个叫 Superpowered 的产品进过 Y Combinator——那是个做会议记录 / 生产力的工具。据 Dearsley 自己在播客里的复盘,这条线上他们反复转型(投资 app、笔记工具、AI 生产力软件),一度做到倦怠,搬到旧金山重启。

真正的转折点很偶然。据 TechCrunch 报道,2023 年 Dearsley 给自己做了个"AI 树洞"——一个能在每天散步时陪他聊天的 AI 治疗师。结果发现:几乎没人要那个治疗产品本身,但一堆创业公司盯上了它底下那套低延迟的语音基础设施。 于是他们顺势转型,把底层那套语音管道单独做成产品,这就是 Vapi,2024 年正式公开发布。

两位创始人的背景也对得上这个"做工程基建"的取向:据资料,Dearsley 此前在 Asana、Wealthsimple、Shopify 做过软件工程师,Gupta 待过 Nearside(后被 Plastiq 收购)和 Rakuten。

顺带说一个容易被各种资料搞混的点:Vapi 的"成立年份"有 2020 和 2023 两个说法。我的理解是,2020 对应的是原公司(Superpowered 那条线)的起点,而语音产品 Vapi 是 2023 年转型、2024 年公开发布的。引用时最好说清楚指的是哪个。

专注大模型的电话智能体

了解更多

02. 它到底是什么:不做模型,做模型和电话之间的那一层

理解 Vapi,关键是先搞清楚它不是什么

它不是又一个 TTS,也不是又一个对话大模型,更不是一个开箱即用的"客服机器人成品"。据 Dearsley 的说法,Vapi 刻意不去做预打包的应用,而是聚焦在语音 agent 背后的基础设施和编排层——尤其是给那些想对可靠性、合规、模型行为有更强控制力的企业用。

他有句话挺能概括这个定位(大意):我们就是"模型"和"真正在电话里跟客户对话"之间的所有东西,以及对话之后的所有东西。

为什么这一层值得单独做成一家公司?因为做一个能打电话的语音 agent,远不是"调个 TTS"那么简单。你至少要把这些东西黏在一起,而且每一处都不能卡:

  • 语音转文字(STT):把来电者的话实时转成文字;
  • 大模型(LLM):理解、推理、决定怎么回;
  • 语音合成(TTS):把回答念出来;
  • 电话网络(telephony):对接 Twilio 这类运营商,把这套东西接到真实的电话号码上;
  • 对话控制:轮次管理、打断处理(用户插话要能立刻停)、超时、转人工;
  • 工具调用与知识:让 agent 能查订单、调 API、读知识库,真正"解决问题"而不只是聊天。

这一堆里任何一处有几百毫秒的抖动,电话那头的人立刻就能听出来"这是个机器人"。Vapi 的活,就是把这条链路编排好、把延迟压到据其说明的 sub-500ms,并且做成开发者几天内就能从原型推到生产的 API。

03. 把平台拆开:一个语音 agent 在 Vapi 里怎么跑起来

它最核心的设计取向是模块化、不锁定模型。STT、LLM、TTS 这三段,你可以分别挑供应商——Deepgram 的转写、OpenAI 或 Anthropic 的大模型、ElevenLabs 或别家的合成,混搭着用。Vapi 负责把它们编排成一个连贯的、能扛打断、能接电话的 agent。

概念上,定义一个 agent 大致就是声明这三段用谁(下面是示意结构,字段以官方文档为准):

{
  // 转写:听
  "transcriber": { "provider": "deepgram", "model": "nova-3" },

  // 大脑:想(可换 openai / anthropic 等)
  "model": {
    "provider": "openai",
    "model": "gpt-4o",
    "messages": [{ "role": "system", "content": "你是某品牌的客服…" }],
    "tools": [ /* 函数调用:查订单、改预约等 */ ]
  },

  // 嘴:说(可换 11labs 等)
  "voice": { "provider": "11labs", "voiceId": "..." }
}

这段配置本身没什么算法含量,但它恰恰说明了 Vapi 的价值主张:你不用自己去缝 STT/LLM/TTS 和电话网络,声明式地拼一下,剩下的编排、延迟优化、打断、转接全交给平台。 真正难的、容易出错的部分(轮次、打断、超时、电话信令、规模化)被它收进去了。

它的两条触达路径也值得记:

  • 自助开发者平台:据其披露,被超过一百万开发者用过。Dearsley 强调这点很关键——因为从自助起家、开发者面铺得广,还没签第一个大企业客户时,平台就已经在相当大的规模上被压力测试过了;
  • 企业版:在自助平台之上,加上可靠性、治理、合规、guardrails(护栏)这些企业级能力。据报道 B 轮的钱很大一部分就是要砸在平台治理、可预测性、agent 可靠性这些"高风险企业工作流"需要的东西上。

平台据其说明支持 100 多种语言。

04. Amazon Ring:把它从 demo 推进生产线的那一战

如果说前面都是铺垫,Amazon Ring 这一单是 Vapi 真正的"成人礼",也是它这轮估值的关键支点。

据 TechCrunch 报道,事情是这样的:2024 年假日季,Amazon Ring 的客服来电激增,它面临三选一——扩客服中心、更依赖传统的自动语音菜单、还是上能更自然应答的 AI agent。Ring 评估了 40 多家 AI 语音厂商,最后选了 Vapi。如今 Ring 把 100% 的入站电话都路由through Vapi 的平台

为什么是 Vapi?据 Dearsley 的说法和 Ring 方面的反馈,关键在于控制粒度:Vapi 给了 Ring 的工程师对 agent 在真实对话里如何表现的精细控制权。Ring 的软件研发副总裁 Jason Mitura 给的反馈是,部署后客户满意度评分提升了,而且团队能自己调 agent 体验、不必依赖工程资源。

这一单的信号意义,比那笔钱本身更大:

  • 客服是企业最早愿意把 AI agent 放进生产的场景之一,但语音比文字难得多——来电者对每一次停顿、打断、错误转接、机器人腔都极其敏感;
  • 一个像 Amazon Ring 这样的客户,把全部入站电话压上来,等于在"出错代价高、且高度可见"的地方证明了产品能扛。这是任何做基础设施的公司都想要的那种"客户证言"。

05. 融资历程:节奏快、阵容硬

Vapi 的融资轮次不多,但每一轮的投资人阵容都挺重。据公司公告与多家媒体:

  • 早期 / 种子:据数据平台 Tracxn,首轮融资在 2024 年 10 月前后;
  • Series A(2024 年 12 月):2000 万美元,由 Bessemer Venture Partners 领投;据报道当时 Vapi 转型后六个月内就把营收做到了数百万美元;
  • Series B(2026 年 5 月 12 日):5000 万美元,由 Peak XV Partners 领投(就是原红杉印度/东南亚),微软的 M12、Kleiner Perkins、Bessemer 等参与;据知情人士,投后估值约 5 亿美元;这轮发生在企业 ARR 实现约 10 倍增长之后;
  • 累计:据公司与多家媒体,B 轮后总融资约 7200 万美元

几个要留意的口径问题:

  • 数据平台 Tracxn 给的总额是约 7520 万美元、并把最新一轮记为 2026 年 2 月——这和公司/ TechCrunch 口径的"5000 万 B 轮、5 月 12 日、总额 7200 万"略有出入,差异可能来自统计口径和披露时点。引用时以哪个来源为准要说清楚;
  • B 轮的钱据其说明,明确投向平台治理、可预测性、agent 可靠性和支撑高风险企业工作流的基础设施。

06. 业务数字与版图

把规模数字摆出来,才看得清这家公司现在的体量(部分为公司自述,部分据投资人/媒体):

  • 通话量:据其披露,平台累计处理的电话已超过 10 亿通;目前每天处理约 100 万到 500 万通,其中企业客户占大头;
  • 开发者:自助平台被超过一百万开发者用过;
  • 企业客户:除 Amazon Ring 外,还包括 Kavak、Instawork、New York Life、UnityAI、Cherry、Intuit 等;更早期的客户名单里有 Mindtickle、Luma Health、Deepgram、Groq 等;
  • 营收:据投资人向 TechCrunch 透露,目前 ARR 处于"健康的八位数"区间(即数千万美元级);企业侧 ARR 据称增长约 10 倍;
  • 团队规模:这里有出入——TechCrunch 在 2026 年 5 月说约 100 人,Tracxn 在 4 月底记为 170 人,口径不一,以你引用时的最新来源为准;
  • 总部:旧金山。

07. 竞争格局:它站在哪一层

Vapi 所在的赛道现在非常拥挤。据 TechCrunch 的归类,这一波语音 AI 创业公司里,和它同台的包括 Sierra、Decagon、PolyAI、Bland、Retell,以及 ElevenLabs 等。

但要看清它的位置,得分清这些玩家站在栈的哪一层:

  • 模型层:像 ElevenLabs 这种,核心是自研的语音 / 对话模型;
  • 应用 / 成品层:像 Sierra、Decagon 这种,更偏向给特定场景(客服等)交付偏成品的 agent 解决方案;
  • 基础设施 / 编排层:Vapi、Retell、Bland 这类,卖的是把模型黏合成可生产的语音 agent 的那套管道和 API。

Vapi 主动选的是中间这层,而且刻意不往"成品应用"上走。这个定位的好处是:它对底层模型保持中立(谁强用谁),又比纯模型公司更贴近企业的真实交付需求。Dearsley 对这件事的总结很工程师(大意):那个核心难题,就是把"模型"这头不确定的野兽驯服好;能驯服它,就能给世界提供价值。

这个定位的风险也对称地存在:中间层最怕上下两头的挤压——模型厂商往上做编排(ElevenLabs 的 Agents 平台就是个例子),云 / 电话平台往下做整合。Vapi 能不能守住,取决于它在"可靠性、控制粒度、规模化"这几件最难、最脏的事上,能不能持续比上下游做得更好。Amazon Ring 这一单,至少证明了它现在守得住。

08. 现在的位置

把时间收到当下(2026 年 6 月初):Vapi 从一个散步时陪聊的 AI 树洞,转型成了估值约 5 亿美元、累计处理超 10 亿通电话、被 Amazon Ring 这种客户把全部入站话务压上来的语音 agent 基础设施公司。它没有自己的模型,但它把"让一堆模型在电话里像人一样可靠地对话"这件最难的工程活,做成了一门生意。

放进这个系列看,它和 ElevenLabs 正好构成语音 agent 栈的两面:一个给你最好的"嘴和耳朵",一个负责把嘴、耳朵、大脑和电话线编排成一个能解决问题的 agent。下一篇我打算把这些选手放在同一张技术台子上,做一轮横向的能力和取舍对比。