CosyVoice多语言、音色和情感控制模型,one-shot零样本语音克隆模型本地部署(Win/Mac),通义实验室开源
原文中文,约3900字,阅读约需10分钟。发表于: 。近日,阿里通义实验室开源了CosyVoice语音模型,它支持自然语音生成,支持多语言、音色和情感控制,在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。CosyVoice采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。CosyVoice支持one-shot音色克隆:仅需要3~10s的原始音频,即可生成模拟音色,甚至包...
阿里通义实验室开源了CosyVoice语音模型,支持自然语音生成,多语言、音色和情感控制。模型训练数据超过15万小时,支持中英日粤韩5种语言合成。提供了Windows和Mac平台的本地部署教程。推荐使用webui进行操作。