软件介绍
Voicebox是一款免费开源的AI语音合成工作室,支持Mac本地运行声音克隆与文本转语音。基于Qwen3-TTS模型,提供多轨道编辑、批量生成、API接口等专业功能,无需订阅即可实现ElevenLabs级语音合成效果
Voicebox 是由独立开发者 Jamie Pine 打造的开源语音合成工作室,定位为"完全本地化、免费开源的 ElevenLabs 替代品"。项目基于阿里巴巴通义千问的 Qwen3-TTS 模型构建,支持在 macOS、Windows 和 Linux 三大平台本地运行,所有语音数据与模型文件均存储在用户设备,无需联网即可实现专业级声音克隆与合成。
项目采用 Tauri(Rust)框架构建桌面端,配合 React 与 TypeScript 前端,实现了接近原生应用的性能表现。与 Electron 应用相比,安装包体积缩小约十倍,内存占用显著降低。后端基于 FastAPI 提供完整的 REST API 接口,既支持图形界面操作,也允许开发者集成至自有项目。
Voicebox 的核心技术亮点在于对 Apple Silicon 的深度优化。通过 MLX 后端与 Metal 加速,在 M 系列芯片上可实现比传统 PyTorch 后端快四到五倍的推理速度,充分利用了 Mac 设备的神经网络引擎。
软件体验
首次启动 Voicebox,界面呈现典型的专业音频软件布局。左侧为声音配置库,中间是项目时间线,右侧为属性编辑区,整体风格接近 Logic Pro 或 Ableton Live 等数字音频工作站(DAW)。
软件提供两种运行模式:本地模式所有计算在设备完成,适合隐私敏感场景;远程模式可连接局域网内的 GPU 服务器,为算力不足的设备提供扩展能力。用户甚至可以将任意机器一键配置为 Voicebox 服务器,实现工作室级别的集中算力调度。
声音克隆流程设计得极为简洁。上传一段几秒钟的音频样本,软件自动提取声纹特征并创建声音配置文件,整个过程无需编写代码或调整复杂参数。对于 macOS 用户,软件支持直接录制系统音频,方便从视频或播客中提取样本。
Stories 编辑器是体验中的惊喜功能。多轨道时间线允许用户编排多角色对话,每个轨道可分配不同的声音配置,配合内置的音频剪辑工具,可直接在软件内完成播客、有声书或游戏对话的制作,无需导出至其他 DAW。
功能点详解
声音克隆与配置管理
Voicebox 的声音克隆基于 Qwen3-TTS 模型,仅需几秒钟的参考音频即可生成高保真声音。系统支持创建多个声音配置文件,用户可为每个配置添加描述标签与语言标识,方便管理大量声库。配置文件支持导入导出,便于备份或在团队间共享。
多样本合成功能允许用户上传多个音频片段融合成单一声音,显著提升克隆质量。软件内置的录音功能提供实时波形可视化,支持直接录制系统音频或麦克风输入,录制完成后可立即用于克隆。
语音合成与批量生成
文本转语音模块支持任意已克隆的声音生成自然语音。智能缓存机制会保存生成过程中的语音提示,重复生成相同内容时可瞬间完成。批量生成功能针对长文本优化,可自动分段处理并合并输出,适合制作长篇有声内容。
Instruct 模式允许用户通过自然语言指令控制生成结果,例如调整语速、情感或发音方式,无需记忆复杂的参数设置。
Stories 多轨道编辑器
这是 Voicebox 区别于普通 TTS 工具的核心功能。时间线编辑器支持多轨道语音编排,用户可为不同角色分配不同声音,构建复杂的对话场景。内置的音频剪辑工具支持裁剪、分割与对齐操作,播放头自动跟随功能确保预览时音画同步。
编辑器支持空间键控制播放暂停,操作逻辑符合专业音频软件习惯。生成的项目可导出为多种音频格式,直接用于视频制作或播客发布。
录音与转录
内置录音模块支持系统音频捕获与麦克风输入,提供实时波形监控。集成的 Whisper 转录引擎可将录音自动转为文字,支持多语言识别。转录结果可直接用于生成语音,实现"录制-转录-合成"的完整工作流。
生成历史与 API 接口
所有生成的音频自动保存至历史记录,支持按声音配置、文本内容或日期搜索筛选。一键重新生成功能允许用户基于历史记录快速调整参数并重新合成。
开放的 REST API 提供完整的编程接口,支持通过 HTTP 请求生成语音、管理声音配置、查询生成状态。开发者可将 Voicebox 集成至游戏对话系统、内容创作流水线、无障碍辅助工具或语音助手项目中。API 文档遵循 OpenAPI 规范,运行时可通过本地端口访问交互式文档。
应用特点
完全本地化的隐私保障
所有语音模型、声音配置文件与生成内容均存储于本地设备,不上传至任何云端服务器。这一设计彻底消除了语音数据被滥用的风险,对于需要处理敏感内容或商业机密的工作室尤为重要。
原生性能与跨平台一致性
基于 Tauri 框架构建的桌面应用,在 macOS 上提供原生级性能体验。Apple Silicon 版本通过 MLX 后端实现硬件加速,推理速度远超基于 PyTorch 的同类工具。Windows 版本支持 CUDA 加速,Linux 版本正在开发中。
开源与免费属性
项目采用开源协议发布,用户可自由查看、修改与分发源代码。这种开放性确保了软件的长期可用性,避免了商业软件常见的订阅涨价或服务终止风险。
专业级工具链整合
从声音克隆、多轨道编辑到批量生成,Voicebox 提供了完整的语音制作工具链。DAW 风格的操作界面降低了专业用户的学习成本,API 优先的设计理念则满足了自动化与集成需求。
持续迭代与社区驱动
项目保持着活跃的开发节奏。近期更新包括改进的声音配置创建流程、增强的 Stories 编辑器交互、跨平台缓存路径修复、GPU 检测优化等。路线图显示实时合成、对话模式、音效处理、更多模型支持等功能正在开发中。
总结
Voicebox 的出现填补了开源语音合成领域的工具空白。它将原本需要昂贵订阅费或复杂技术栈才能实现的声音克隆能力,以免费、开源、本地化的形式交付给普通用户与专业工作室。
对于 macOS 用户,特别是配备 Apple Silicon 设备的创作者,Voicebox 提供了当前市场上性能最优的本地语音合成方案之一。无论是制作有声书、开发游戏语音、创建虚拟助手,还是进行内容创作,这款工具都能提供可靠且高质量的技术支持。
在 AI 语音技术日益成熟的今天,Voicebox 证明了开源社区同样能够产出媲美商业产品的专业工具,同时坚守数据主权与用户隐私的价值底线。
应用截图
安装说明
- 点击上方"下载"按钮下载 .dmg 安装包
- 双击下载的 .dmg 文件打开安装镜像
- 将 Voicebox 拖拽到 Applications 文件夹
- 从 Launchpad 或 Applications 文件夹启动应用
系统要求
- >= macOS 12.0














