💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
CosyVoice是阿里巴巴开源的语音生成大模型,最新的2.0版本在音质、准确性和稳定性上有显著提升,支持多方言和情感控制,语音合成延迟更低。
🎯
关键要点
- CosyVoice是阿里巴巴开源的语音生成大模型,最新版本为2.0。
- CosyVoice 2.0在音质、准确性和稳定性上有显著提升。
- 支持多方言和情感控制,语音合成延迟更低。
- CosyVoice 2.0的合成音频发音错误下降30%~50%。
- 在零样本语音生成和跨语言语音合成上保证音色一致性。
- 合成音频的韵律、音质、情感匹配有明显提升,MOS评分从5.4提升到5.53。
- CosyVoice 2.0采用了新的LLM+FM建模框架,优化了算法。
- 引入FSQ Speech Tokenizer,提升发音准确性。
- 支持离线和流式一体化建模方案,合成延迟可达150ms。
- 新增中文指令处理能力,支持多种方言和角色扮演功能。
- 提供在线体验和开源代码,方便用户进行本地体验或部署。
➡️