本文介绍了一个语音合成系统的开发,用于LIMMITS'24挑战赛,目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统。系统使用挑战数据进行训练,并对目标发言人进行少样本语音克隆微调。评估包括对七种语言进行主观测试,评估自然度和发言人相似性。系统使用了VITS2架构,结合多语言ID和BERT模型来增强上下文语言理解。在第一阶段,模型的发言人相似性得分为4.02,在允许使用额外数据的第二阶段,得分为4.17。
AdaSpeech 4是一个高质量的语音合成系统,通过建模说话者特征提高对新说话者的泛化能力,并通过三个步骤改善建模。AdaSpeech 4在多个数据集中实现了比基线更好的语音质量和相似性,无需微调。
完成下面两步后,将自动完成登录并继续当前操作。