💡
原文中文,约8600字,阅读约需21分钟。
📝
内容提要
MaskGCT是一款新发布的非自回归文字转语音AI模型,支持多种语言,基于10万小时的Emilia数据集训练,用户可在本地部署。安装依赖后,通过推理脚本实现语音合成,语音质量接近真实,但运行成本较高。
🎯
关键要点
- MaskGCT是一款新发布的非自回归文字转语音AI模型。
- 该模型支持多种语言,基于10万小时的Emilia数据集训练。
- 用户可以在本地部署MaskGCT,安装依赖后通过推理脚本实现语音合成。
- 语音质量接近真实,但运行成本较高。
- MaskGCT精通中英日韩法德6种语言的跨语种合成。
- 安装依赖需要Python3.11环境,并提供了适合Windows的requirements.txt文件。
- MaskGCT项目后端依赖espeak软件,需要进行本地配置。
- 首次推理会下载10个G的模型,推理过程中占用11G显存。
- 可以基于gradio写一个简单的webui界面来进行语音合成。
- MaskGCT模型在语气韵律层面表现突出,但工程化层面优化不足,运行成本偏高。
➡️