云原生 ·

VoxCPM - 一种无分词的文本转语音（TTS）系统，支持上下文感知的语音合成……

💡 原文英文，约300词，阅读约需1分钟。

📝

内容提要

VoxCPM是OpenBMB推出的开源无分词文本转语音系统，支持上下文感知和零-shot语音克隆，基于MiniCPM-4，适用于语音助手和媒体配音等高保真合成任务。

🎯

🔎

VoxCPM的上下文感知能力使其在语音合成中能够生成与语义内容相匹配的韵律和说话风格。这一特性对于语音助手和媒体配音等应用尤为重要，因为它能够提升用户体验，使合成的语音更自然、更具表现力。

VoxCPM支持零-shot语音克隆，能够从简短的参考音频中准确捕捉音色和韵律。这一功能在需要快速生成个性化语音的场景中具有广泛应用潜力，如为特定角色配音或为语言学习提供真实的发音示例。

VoxCPM作为开源项目，提供了代码、检查点和示例，允许研究人员和开发者自由使用和修改。这种开放性不仅促进了技术的快速迭代，也为低资源语言的TTS原型开发提供了便利，推动了语音合成技术的普及。

❓

VoxCPM是一个开源的无分词文本转语音系统。

VoxCPM支持上下文感知的语音合成和零-shot语音克隆。

VoxCPM能够从简短的参考音频中准确捕捉音色、韵律和细微特征，实现真实的语音克隆。

VoxCPM适用于语音助手、媒体配音、语言研究等高保真合成任务。

VoxCPM的代码、检查点和示例可以在GitHub和Hugging Face上找到。

VoxCPM通过工程优化实现了在消费级GPU上低实时因子的流式合成。

🏷️