Name: Voicebox
Author: Jamie Pine

软件介绍

Voicebox是一款免费开源的AI语音合成工作室，支持Mac本地运行声音克隆与文本转语音。基于Qwen3-TTS模型，提供多轨道编辑、批量生成、API接口等专业功能，无需订阅即可实现ElevenLabs级语音合成效果

Voicebox 是由独立开发者 Jamie Pine 打造的开源语音合成工作室，定位为"完全本地化、免费开源的 ElevenLabs 替代品"。项目基于阿里巴巴通义千问的 Qwen3-TTS 模型构建，支持在 macOS、Windows 和 Linux 三大平台本地运行，所有语音数据与模型文件均存储在用户设备，无需联网即可实现专业级声音克隆与合成。

项目采用 Tauri（Rust）框架构建桌面端，配合 React 与 TypeScript 前端，实现了接近原生应用的性能表现。与 Electron 应用相比，安装包体积缩小约十倍，内存占用显著降低。后端基于 FastAPI 提供完整的 REST API 接口，既支持图形界面操作，也允许开发者集成至自有项目。

Voicebox 的核心技术亮点在于对 Apple Silicon 的深度优化。通过 MLX 后端与 Metal 加速，在 M 系列芯片上可实现比传统 PyTorch 后端快四到五倍的推理速度，充分利用了 Mac 设备的神经网络引擎。

软件体验

首次启动 Voicebox，界面呈现典型的专业音频软件布局。左侧为声音配置库，中间是项目时间线，右侧为属性编辑区，整体风格接近 Logic Pro 或 Ableton Live 等数字音频工作站（DAW）。

软件提供两种运行模式：本地模式所有计算在设备完成，适合隐私敏感场景；远程模式可连接局域网内的 GPU 服务器，为算力不足的设备提供扩展能力。用户甚至可以将任意机器一键配置为 Voicebox 服务器，实现工作室级别的集中算力调度。

声音克隆流程设计得极为简洁。上传一段几秒钟的音频样本，软件自动提取声纹特征并创建声音配置文件，整个过程无需编写代码或调整复杂参数。对于 macOS 用户，软件支持直接录制系统音频，方便从视频或播客中提取样本。

Stories 编辑器是体验中的惊喜功能。多轨道时间线允许用户编排多角色对话，每个轨道可分配不同的声音配置，配合内置的音频剪辑工具，可直接在软件内完成播客、有声书或游戏对话的制作，无需导出至其他 DAW。

功能点详解

声音克隆与配置管理

Voicebox 的声音克隆基于 Qwen3-TTS 模型，仅需几秒钟的参考音频即可生成高保真声音。系统支持创建多个声音配置文件，用户可为每个配置添加描述标签与语言标识，方便管理大量声库。配置文件支持导入导出，便于备份或在团队间共享。

多样本合成功能允许用户上传多个音频片段融合成单一声音，显著提升克隆质量。软件内置的录音功能提供实时波形可视化，支持直接录制系统音频或麦克风输入，录制完成后可立即用于克隆。

语音合成与批量生成

文本转语音模块支持任意已克隆的声音生成自然语音。智能缓存机制会保存生成过程中的语音提示，重复生成相同内容时可瞬间完成。批量生成功能针对长文本优化，可自动分段处理并合并输出，适合制作长篇有声内容。

Instruct 模式允许用户通过自然语言指令控制生成结果，例如调整语速、情感或发音方式，无需记忆复杂的参数设置。

Stories 多轨道编辑器

这是 Voicebox 区别于普通 TTS 工具的核心功能。时间线编辑器支持多轨道语音编排，用户可为不同角色分配不同声音，构建复杂的对话场景。内置的音频剪辑工具支持裁剪、分割与对齐操作，播放头自动跟随功能确保预览时音画同步。

编辑器支持空间键控制播放暂停，操作逻辑符合专业音频软件习惯。生成的项目可导出为多种音频格式，直接用于视频制作或播客发布。

录音与转录

内置录音模块支持系统音频捕获与麦克风输入，提供实时波形监控。集成的 Whisper 转录引擎可将录音自动转为文字，支持多语言识别。转录结果可直接用于生成语音，实现"录制-转录-合成"的完整工作流。

生成历史与 API 接口

所有生成的音频自动保存至历史记录，支持按声音配置、文本内容或日期搜索筛选。一键重新生成功能允许用户基于历史记录快速调整参数并重新合成。

开放的 REST API 提供完整的编程接口，支持通过 HTTP 请求生成语音、管理声音配置、查询生成状态。开发者可将 Voicebox 集成至游戏对话系统、内容创作流水线、无障碍辅助工具或语音助手项目中。API 文档遵循 OpenAPI 规范，运行时可通过本地端口访问交互式文档。

应用特点

完全本地化的隐私保障

所有语音模型、声音配置文件与生成内容均存储于本地设备，不上传至任何云端服务器。这一设计彻底消除了语音数据被滥用的风险，对于需要处理敏感内容或商业机密的工作室尤为重要。

原生性能与跨平台一致性

基于 Tauri 框架构建的桌面应用，在 macOS 上提供原生级性能体验。Apple Silicon 版本通过 MLX 后端实现硬件加速，推理速度远超基于 PyTorch 的同类工具。Windows 版本支持 CUDA 加速，Linux 版本正在开发中。

开源与免费属性

项目采用开源协议发布，用户可自由查看、修改与分发源代码。这种开放性确保了软件的长期可用性，避免了商业软件常见的订阅涨价或服务终止风险。

专业级工具链整合

从声音克隆、多轨道编辑到批量生成，Voicebox 提供了完整的语音制作工具链。DAW 风格的操作界面降低了专业用户的学习成本，API 优先的设计理念则满足了自动化与集成需求。

持续迭代与社区驱动

项目保持着活跃的开发节奏。近期更新包括改进的声音配置创建流程、增强的 Stories 编辑器交互、跨平台缓存路径修复、GPU 检测优化等。路线图显示实时合成、对话模式、音效处理、更多模型支持等功能正在开发中。

总结

Voicebox 的出现填补了开源语音合成领域的工具空白。它将原本需要昂贵订阅费或复杂技术栈才能实现的声音克隆能力，以免费、开源、本地化的形式交付给普通用户与专业工作室。

对于 macOS 用户，特别是配备 Apple Silicon 设备的创作者，Voicebox 提供了当前市场上性能最优的本地语音合成方案之一。无论是制作有声书、开发游戏语音、创建虚拟助手，还是进行内容创作，这款工具都能提供可靠且高质量的技术支持。

在 AI 语音技术日益成熟的今天，Voicebox 证明了开源社区同样能够产出媲美商业产品的专业工具，同时坚守数据主权与用户隐私的价值底线。

安装说明

点击上方"下载"按钮下载 .dmg 安装包
双击下载的 .dmg 文件打开安装镜像
将 Voicebox 拖拽到 Applications 文件夹
从 Launchpad 或 Applications 文件夹启动应用

系统要求

>= macOS 12.0

用户评论

暂无评论

新版本

AltTab

11.3.1

模拟Windows 切换窗口

Escrcpy

2.11.1

在 Mac 上无缝操控安卓手机

ZCode

3.0.1

Mac桌面端Agent开发环境

Chatbox

1.21.0

全能AI助手

Snapzy

1.20.8

原生截图录屏应用

Stats

3.0.1

高效的 macOS 系统监控工具

Voicebox (v0.3.0)

软件介绍

软件体验