语音生成大模型CosyVoice升级2.0版本 | 开源更新

语音生成大模型CosyVoice升级2.0版本 | 开源更新

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

CosyVoice是阿里巴巴开源的语音生成大模型,最新的2.0版本在音质、准确性和稳定性上有显著提升,支持多方言和情感控制,语音合成延迟更低。

🎯

关键要点

  • CosyVoice是阿里巴巴开源的语音生成大模型,最新版本为2.0。
  • CosyVoice 2.0在音质、准确性和稳定性上有显著提升。
  • 支持多方言和情感控制,语音合成延迟更低。
  • CosyVoice 2.0的合成音频发音错误下降30%~50%。
  • 在零样本语音生成和跨语言语音合成上保证音色一致性。
  • 合成音频的韵律、音质、情感匹配有明显提升,MOS评分从5.4提升到5.53。
  • CosyVoice 2.0采用了新的LLM+FM建模框架,优化了算法。
  • 引入FSQ Speech Tokenizer,提升发音准确性。
  • 支持离线和流式一体化建模方案,合成延迟可达150ms。
  • 新增中文指令处理能力,支持多种方言和角色扮演功能。
  • 提供在线体验和开源代码,方便用户进行本地体验或部署。
➡️

继续阅读