实时互动网 ·

语音生成大模型CosyVoice升级2.0版本 | 开源更新

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

CosyVoice是阿里巴巴开源的语音生成大模型，最新的2.0版本在音质、准确性和稳定性上有显著提升，支持多方言和情感控制，语音合成延迟更低。

🎯

🔎

CosyVoice 2.0在音质和准确性上的显著提升，意味着其在实际应用中能够提供更自然的语音交互体验。这对于客服、教育和娱乐等领域的语音合成应用具有重要意义，能够提升用户满意度和参与感。

CosyVoice 2.0新增对多种方言的支持，能够满足不同地区用户的需求。这一功能不仅增强了模型的适用性，也为本地化应用提供了便利，尤其是在中国这样方言众多的市场中，具有显著的竞争优势。

CosyVoice 2.0支持离线和流式一体化建模，用户可以根据需求选择合适的合成方式。流式合成的低延迟特性使得实时应用成为可能，而离线合成则适合对音质要求更高的场景，这种灵活性为开发者提供了更多选择。

❓

CosyVoice 2.0在音质、准确性和稳定性上有显著提升，采用新的LLM+FM建模框架，优化了算法，并引入FSQ Speech Tokenizer，提升发音准确性。

CosyVoice 2.0支持多种方言，包括粤语、四川话、郑州话、天津话和长沙话，并新增了角色扮演功能。

CosyVoice 2.0的合成音频发音错误下降30%～50%，韵律、音质、情感匹配有明显提升，MOS评分从5.4提升到5.53。

用户可以通过创空间提供的在线体验服务，上传音频文件或录音进行语音复刻，也可以使用流式推理进行实时体验。

CosyVoice 2.0的首包合成延迟可达到150ms，支持离线和流式一体化建模方案。

CosyVoice 2.0的开源代码可以在GitHub上找到，链接为https://github.com/FunAudioLLM/CosyVoice。

🏷️