提升尼泊尔语语音克隆技术:利用迁移学习解决低资源语言问题
原文中文,约300字,阅读约需1分钟。发表于: 。本研究针对尼泊尔语语音克隆中音质差和数据不足的问题,提出使用迁移学习的创新方法。通过优化多说话人生成模型,该方法在有限的音频样本下,成功实现了音频输出的自然性与相似度。该研究的发现为低资源语言的语音合成奠定了更高的基础,具有重要的应用潜力。
本文介绍了一个语音合成系统的开发,用于LIMMITS'24挑战赛,目标是建立一个具有语音克隆功能的多说话人、多语言的印度文本到语音系统。系统使用挑战数据进行训练,并对目标发言人进行少样本语音克隆微调。评估包括对七种语言进行主观测试,评估自然度和发言人相似性。系统使用了VITS2架构,结合多语言ID和BERT模型来增强上下文语言理解。在第一阶段,模型的发言人相似性得分为4.02,在允许使用额外数据的第二阶段,得分为4.17。