刘悦 ·

MaskGCT,AI语音克隆大模型本地部署(Windows11),基于Python3.11,TTS,文字转语音

💡 原文中文，约8600字，阅读约需21分钟。

📝

内容提要

MaskGCT是一款新发布的非自回归文字转语音AI模型，支持多种语言，基于10万小时的Emilia数据集训练，用户可在本地部署。安装依赖后，通过推理脚本实现语音合成，语音质量接近真实，但运行成本较高。

🎯

🔎

MaskGCT支持中、英、日、韩、法、德六种语言的合成，适合需要多语种语音合成的应用场景。其基于10万小时的Emilia数据集训练，确保了语音质量的多样性和自然度，适合国际化产品的开发。

虽然MaskGCT可以在本地部署，但安装过程较为复杂，需要配置Python环境和多个依赖包。此外，首次推理会下载约10GB的模型，并占用11GB显存，用户需确保硬件配置满足要求。

MaskGCT在语气韵律层面表现突出，语音质量接近真实，但其运行成本较高，可能不适合预算有限的用户或小型项目。用户在选择时需考虑性能与成本之间的平衡。

❓

MaskGCT是一款非自回归的文字转语音AI模型。

用户需要安装Python3.11环境，并根据提供的requirements.txt文件安装依赖，然后配置espeak软件。

MaskGCT支持中、英、日、韩、法、德六种语言的跨语种合成。

MaskGCT的语音质量接近真实，但运行成本较高。

MaskGCT在推理过程中占用11G显存，且首次推理需要下载10G的模型，导致运行成本较高。

可以基于gradio编写一个简单的webui界面，通过设置输入文本和音频文件来进行语音合成。

🏷️