💡 原文英文,约300词,阅读约需1分钟。
📝

内容提要

VoxCPM是OpenBMB推出的开源无分词文本转语音系统,支持上下文感知和零-shot语音克隆,基于MiniCPM-4,适用于语音助手和媒体配音等高保真合成任务。

🎯

关键要点

  • VoxCPM是OpenBMB推出的开源无分词文本转语音系统。
  • 支持上下文感知和零-shot语音克隆,基于MiniCPM-4。
  • 具备训练和推理管道、预训练权重,以及Hugging Face上的互动演示。
  • 上下文感知的表现力:生成与语义内容匹配的韵律和说话风格。
  • 真实的语音克隆:从简短参考音频中准确捕捉音色、韵律和细微特征。
  • 高效推理:工程优化使得在消费级GPU上实现低实时因子(RTF)的流式合成。
  • 开源发布:代码、检查点和示例在GitHub和Hugging Face上以Apache-2.0许可证发布。
  • 适用于高保真和上下文敏感的合成任务,如语音助手、媒体配音、语言研究等。
  • VoxCPM采用无分词的连续声学建模,结合分层语言建模和FSQ约束。
  • 系统使用基于MiniCPM-4的扩散自回归管道,提供训练食谱、推理接口和示例脚本。
➡️

继续阅读