语音生成大模型CosyVoice升级2.0版本 | 开源更新

语音生成大模型CosyVoice升级2.0版本 | 开源更新

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

CosyVoice是阿里巴巴开源的语音生成大模型,最新的2.0版本在音质、准确性和稳定性上有显著提升,支持多方言和情感控制,语音合成延迟更低。

🎯

关键要点

  • CosyVoice是阿里巴巴开源的语音生成大模型,最新版本为2.0。
  • CosyVoice 2.0在音质、准确性和稳定性上有显著提升。
  • 支持多方言和情感控制,语音合成延迟更低。
  • CosyVoice 2.0的合成音频发音错误下降30%~50%。
  • 在零样本语音生成和跨语言语音合成上保证音色一致性。
  • 合成音频的韵律、音质、情感匹配有明显提升,MOS评分从5.4提升到5.53。
  • CosyVoice 2.0采用了新的LLM+FM建模框架,优化了算法。
  • 引入FSQ Speech Tokenizer,提升发音准确性。
  • 支持离线和流式一体化建模方案,合成延迟可达150ms。
  • 新增中文指令处理能力,支持多种方言和角色扮演功能。
  • 提供在线体验和开源代码,方便用户进行本地体验或部署。

延伸问答

CosyVoice 2.0有哪些主要的技术改进?

CosyVoice 2.0在音质、准确性和稳定性上有显著提升,采用新的LLM+FM建模框架,优化了算法,并引入FSQ Speech Tokenizer,提升发音准确性。

CosyVoice 2.0支持哪些方言和功能?

CosyVoice 2.0支持多种方言,包括粤语、四川话、郑州话、天津话和长沙话,并新增了角色扮演功能。

CosyVoice 2.0的合成音频质量如何?

CosyVoice 2.0的合成音频发音错误下降30%~50%,韵律、音质、情感匹配有明显提升,MOS评分从5.4提升到5.53。

如何体验CosyVoice 2.0的语音合成?

用户可以通过创空间提供的在线体验服务,上传音频文件或录音进行语音复刻,也可以使用流式推理进行实时体验。

CosyVoice 2.0的合成延迟是多少?

CosyVoice 2.0的首包合成延迟可达到150ms,支持离线和流式一体化建模方案。

CosyVoice 2.0的开源代码在哪里可以找到?

CosyVoice 2.0的开源代码可以在GitHub上找到,链接为https://github.com/FunAudioLLM/CosyVoice。

➡️

继续阅读