花一个下午为自己部署一个免费的语音工具箱
开源本地语音工具正在成为商业 TTS、语音听写和声音克隆服务之外的替代方案,核心驱动力是成本控制、隐私保护和对本地 AI 工作流的掌控。本文以 Voicebox 为例,分析本地优先语音工作室如何把多引擎 TTS、声音克隆、全局听写、Whisper 转写、本地 LLM 润色和 MCP agent 发声整合到同一桌面应用。实际部署需要提前判断硬件平台、安装包或源码路线、模型下载、macOS 权限、显存管理和不同 TTS 引擎的能力差异。选择这类工具时,应围绕数据是否出端、中文与多语言质量、系统级输入输出能力、API/MCP 集成和维护成本做决策。
📖 目录导航
- 01. 先说清楚它是什么
- 02. 它具体能干哪些活
- 03. 部署前的关键决策:你走哪条路
- 04. 最快的路:下载安装包
- 05. 想折腾的路:从源码跑起来
- 06. 跑通第一条:克隆一个声音并合成
- 07. 把另一半接上:全局听写
- 08. 真正好玩的:让你的 AI agent 用你的声音说话
- 09. 几个会让你卡住的坑
- 10. 一个下午,值不值
商业语音工具现在不便宜。你想要好的 TTS(把文字念成像人的声音),大概率得用 ElevenLabs;你想要好用的语音听写(把你说的话实时打进任何输入框),大概率得用 WisprFlow。两个都按月订阅,而且你的声音、你口述的内容,全都过了别人的云。
有个开源项目想把这两半一次性收进你自己的机器,叫 Voicebox(GitHub: jamiepine/voicebox)。我花了点时间把它的文档和功能过了一遍,结论是:这是个真能在一个下午跑起来、值得自己部署一套的东西。 这篇就当一份动手指南,讲清楚它是什么、怎么最快跑通、以及哪些地方会卡。
01. 先说清楚它是什么
一句话:Voicebox 是一个本地优先的 AI 语音工作室,据其自述,是把 ElevenLabs(输出/合成)和 WisprFlow(输入/听写)合到一个 app 里的免费开源替代。协议是 MIT,GitHub 上已经 2 万 3 千多 star,最新版本是 2026 年 4 月的 v0.5.0。
它覆盖的是语音 I/O 的一整个闭环,不是单点工具:
- 输出(说):从几秒参考音频零样本克隆一个声音,或用内置的 50 多个预设声音,把文字合成成语音,支持 23 种语言;
- 输入(听):一个全局快捷键,在系统任何地方按住说话、松开就把转写结果贴进当前输入框(macOS 上可自动粘贴),底层用 Whisper;
- 桥接:中间还塞了一个本地 LLM(Qwen3),用来润色听写结果、给声音挂"人设"。
最关键的一点:模型、声音数据、录音全程不出你的机器。 对于"不想把自己的声音上传到别人云上"的人,这是核心卖点。
技术栈也挺实在:桌面端是 Tauri(Rust,不是 Electron),前端 React + TypeScript,后端 FastAPI(Python),数据库 SQLite,推理在 Apple Silicon 上走 MLX、其他平台走 PyTorch。
02. 它具体能干哪些活
部署之前先知道你能拿它干什么,免得装完发现用不上。据其文档,主要能力有这么几块:
- 多引擎 TTS 与克隆:内置 7 个 TTS 引擎,可按每次生成切换,各有侧重:Qwen3-TTS(0.6B/1.7B,高质量多语言克隆,支持"慢点说""耳语"这类指令)、Qwen CustomVoice(9 个预设声音,自然语言控制语气,免参考音频)、LuxTTS(轻量,约 1GB 显存,CPU 上 150 倍实时)、Chatterbox Multilingual(语言覆盖最广,23 种)、Chatterbox Turbo(350M 的快模型,唯一支持
[laugh][sigh]这类副语言情绪标签)、HumeAI TADA(1B/3B,能出 700 秒以上连贯音频)、Kokoro(82M 超小,50 个预设声音,CPU 快); - 后期效果:基于 Spotify 的 pedalboard 库,8 种效果(变调、混响、延迟、合唱、压缩、增益、高通/低通),自带 Robotic、Radio、Echo Chamber、Deep Voice 几个预设,可按声音档案设默认;
- 不限长度:长文本按句子边界自动切块、逐块生成再交叉淡入拼接,最长支持 5 万字符;
- 故事编辑器:多轨时间线,做对话、播客、旁白这种多声音内容;
- 全局听写 + STT:全局快捷键听写,支持按住说和点一下切换两种模式,Whisper 提供从 Base 到 Large、以及比 Large 快约 8 倍的 Turbo 几档;
- 给 AI agent 一个声音:通过内置的 MCP server,任何支持 MCP 的 agent(Claude Code、Cursor、Cline 等)一次工具调用就能用你克隆的声音对你说话;
- 声音人设:给任意声音档案挂一段自由文本人设,用内置本地 LLM 做改写/对话。
03. 部署前的关键决策:你走哪条路
别一上来就 clone 源码。先根据你的设备和目的,选对路线,这一步选错最浪费下午。
第一个问题:你是想"用"还是想"改"?
- 只是想用上这套工具 → 走下载安装包这条路,最快,几分钟搞定;
- 想改代码、加引擎、研究实现 → 走源码开发这条路。
第二个问题:你的硬件是什么? 这决定了推理快慢,据其文档:
- macOS(Apple Silicon):走 MLX/Metal,据称通过神经引擎能快 4–5 倍,体验最好;
- Windows / Linux + NVIDIA:走 PyTorch CUDA,app 内会自动下载 CUDA 二进制;
- Linux + AMD:走 ROCm,会自动配
HSA_OVERRIDE_GFX_VERSION; - Windows 任意 GPU:有 DirectML 兜底;Intel Arc 走 IPEX/XPU;
- 没有独显:CPU 也能跑,就是慢,优先选 LuxTTS、Kokoro 这种小引擎。
一个要提前知道的坑:Linux 目前没有预编译安装包,只能从源码构建(见官方 linux-install 说明)。如果你是 Linux 用户又只想图省事,得有心理准备。
04. 最快的路:下载安装包
如果你在 Mac 或 Windows,这条路十几分钟就能跑通:
- macOS(Apple Silicon / Intel)下载对应的 DMG,Windows 下载 MSI,都在 voicebox.sh 或 GitHub releases 页;
- 装好首次启动,它会按你的平台去下载所需的模型(TTS / Whisper / 本地 LLM),这一步取决于你的网速和选的引擎,预留出下载时间;
- macOS 用户注意权限:全局听写和自动粘贴依赖系统的"辅助功能"和"输入监控"授权,首次运行 app 会有引导带你去系统设置里逐个打开。这步不给权限,听写的自动粘贴就用不了。
也可以用 Docker:仓库根目录有 docker-compose.yml,直接
docker compose up
不过桌面端那套全局热键、自动粘贴的原生能力,Docker 跑的是 web 部署形态,体验和原生 app 不完全一样,自己权衡。
05. 想折腾的路:从源码跑起来
要改代码就走这条。据其文档,前置依赖是 Bun、Rust、Python 3.11+、Tauri 的环境依赖,macOS 上还要 Xcode。装好后:
git clone https://github.com/jamiepine/voicebox.git
cd voicebox
just setup # 建 Python venv,装好全部依赖
just dev # 同时起后端 + 桌面 app
它用 just 做命令入口(brew install just 或 cargo install just 安装),just --list 能看到全部命令。一个细节:仓库根目录预置了 .mcp.json,在这个目录里跑 Claude Code,dev app 一起来就会自动拿到 Voicebox 的 MCP 工具——对想边开发边用 agent 声音的人很方便。
06. 跑通第一条:克隆一个声音并合成
装完别急着研究全部功能,先把最核心的一条链路跑通,建立信心。
- 建一个声音档案:用一段音频文件,或直接在 app 里录几秒;支持多段样本来提升克隆质量;
- 选引擎:第一次建议用 Qwen3-TTS 或 Chatterbox 系,克隆质量好;想要情绪标签就选 Chatterbox Turbo;
- 输入文字、生成:生成是异步队列、不阻塞,可以提交完接着打下一条。
如果你想从代码/脚本调用,它在本地起了 REST API(默认端口 17493):
# 合成语音
curl -X POST http://127.0.0.1:17493/generate \
-H "Content-Type: application/json" \
-d '{"text": "你好,这是我的声音", "profile_id": "abc123", "language": "zh"}'
完整 API 文档在 http://127.0.0.1:17493/docs,还有 /transcribe(转写)、/profiles(列档案)等。
一个最容易踩的坑:副语言情绪标签([laugh]、[sigh] 这些)只有 Chatterbox Turbo 会真的解释成情绪,其他引擎会把它当普通文字一字一句念出来。用错引擎,你会听到它一本正经念出"左括号 laugh 右括号"。
07. 把另一半接上:全局听写
合成是"说",听写是"听",这才是它区别于纯 TTS 工具的地方。
配好后,在系统任何地方按住你设的快捷键说话,松开,转写结果就出来——macOS 上会自动粘进当前聚焦的输入框(用了辅助功能注入,还会原子地保存/恢复你的剪贴板,不会污染你原来复制的东西)。它支持按住说(push-to-talk)和点一下切换(toggle)两种模式,可在 app 内的快捷键选择器里重绑。
可选打开 LLM 润色,把口述里的"嗯""啊"、口吃、说错重来这些自动清掉再粘贴。底层 STT 是 Whisper,想快就选 Turbo 档。
08. 真正好玩的:让你的 AI agent 用你的声音说话
这是我觉得最值得为它折腾一个下午的功能——对开发者尤其。
它内置了一个 MCP server,把 voicebox.speak 等四个工具暴露出去。任何支持 MCP 的 agent 接上后,就能在跑完任务、有问题、要通知你的时候,用你克隆的某个声音说出来。比如 Claude Code 跑完部署,直接用"你妈妈的声音"念一句"部署完成"——这事现在真能做。
接 Claude Code 一行就够:
claude mcp add voicebox \
--transport http \
--url http://127.0.0.1:17493/mcp \
--header "X-Voicebox-Client-Id: claude-code"
接好后在 agent 里这样调用:
await voicebox.speak({
text: "测试通过,可以合并了。",
profile: "Morgan", // 可选,不填走该客户端的默认绑定
personality: true, // 可选,先过该档案的人设 LLM 改写再合成
});
它还有个贴心设计:可以在 Settings → MCP 里给每个 agent 绑不同的声音——Claude Code 用一个声音、Cursor 用另一个,不用看屏幕就知道是哪个 agent 在说话。屏幕上有个统一的状态浮条(pill),听写和 agent 说话共用,所以你始终能看到"现在我的机器在往外发什么声音"。
不说 MCP 的客户端也能用,走 POST /speak 这个 HTTP 接口就行。
09. 几个会让你卡住的坑
把我从文档里看出来、值得提前防的几条列在这,省得你下午卡在这些上:
- 显存管理:多引擎 + STT + 本地 LLM 都要占 GPU 内存。它支持按模型单独卸载(unload)来腾显存而不删下载,显存吃紧时记得用;还能用
VOICEBOX_MODELS_DIR改模型存放目录; - 首次模型下载:几个引擎模型加起来不小,第一次用某引擎会现下,网速慢的话耐心等,别以为卡死了;
- 引擎别乱选:质量、速度、语言、情绪标签支持各不相同——要中文/多语言克隆用 Qwen3-TTS 或 Chatterbox Multilingual,要极致快/省资源用 Kokoro 或 LuxTTS,要情绪标签只能 Chatterbox Turbo。先想清楚你的场景再选;
- macOS 权限:前面说过,辅助功能 + 输入监控两个授权不给,听写自动粘贴就废;
- Linux 没预编译包:只能源码构建,且自动粘贴在 Windows/Linux 上据其路线图还在做,当前主要是 macOS 完整支持;
- Docker 形态有取舍:容器跑的是 web 部署,拿不到桌面端那套系统级全局热键和粘贴注入。
10. 一个下午,值不值
让我们把账算一下:省掉 ElevenLabs 和 WisprFlow 两份订阅,换来声音和数据全留在本地,还白送一个能让你的 AI agent 开口说话的 MCP 能力——代价是一个下午的部署和踩坑时间,以及一台还说得过去的机器(有 Apple Silicon 或 NVIDIA 显卡体验明显更好)。
如果你本来就在为这两类工具付费,或者对"自己的声音过别人云"有顾虑,这个下午我觉得花得值。最省事就下安装包,想深用就接上 MCP 让 agent 用你的声音汇报工作——这是它最不像玩具、最像生产力工具的那一面。