💡
原文英文,约300词,阅读约需1分钟。
📝
内容提要
VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。
🎯
关键要点
- VoxCPM是OpenBMB推出的开源无分词文本转语音系统。
- 支持上下文感知和零-shot语音克隆,基于MiniCPM-4。
- 具备训练和推理管道、预训练权重,以及Hugging Face上的互动演示。
- 上下文感知的表现力:生成与语义内容匹配的韵律和说话风格。
- 真实的语音克隆:从简短参考音频中准确捕捉音色、韵律和细微特征。
- 高效推理:工程优化使得在消费级GPU上实现低实时因子(RTF)的流式合成。
- 开源发布:代码、检查点和示例在GitHub和Hugging Face上以Apache-2.0许可证发布。
- 适用于高保真和上下文敏感的合成任务,如语音助手、媒体配音、语言研究等。
- VoxCPM采用无分词的连续声学建模,结合分层语言建模和FSQ约束。
- 系统使用基于MiniCPM-4的扩散自回归管道,提供训练食谱、推理接口和示例脚本。
➡️