港中大(深圳)与趣丸科技推出了新一代声音克隆TTS模型MaskGCT,该模型基于10万小时的多语言数据训练,具备超自然的语音克隆和风格迁移能力,采用两阶段结构,无需文本与语音对齐,表现优于现有TTS系统,适用于短剧出海等多种场景。
MaskGCT是一款新发布的非自回归文字转语音AI模型,支持多种语言,基于10万小时的Emilia数据集训练,用户可在本地部署。安装依赖后,通过推理脚本实现语音合成,语音质量接近真实,但运行成本较高。
完成下面两步后,将自动完成登录并继续当前操作。