EM-TTS:高效训练的低资源蒙古语轻量级文本到语音
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种适用于电子商务应用的生产级代码混合印地语-英语TTS系统的方法。通过利用各种语言的单语数据集,采用以数据为导向的方法,演示了单一脚本双语训练的效果很好。通过对单说话人适应和多说话人训练进行评估,结果显示前一种方法效果更好。结合迁移学习和仅解码器微调来提高性能。与Google TTS进行比较,使用提出的迁移学习方法获得了CMOS分数为0.02。低资源语音适应实验结果表明只需要3小时的数据就可以引入新语音。在大量的领域外纯代码混合句子上进行了主观评估,展示了系统的高质量。
🎯
关键要点
- 提出了一种适用于电子商务应用的生产级代码混合印地语-英语 TTS 系统的方法。
- 采用以数据为导向的方法,利用各种语言的单语数据集。
- 在纯代码混合测试集上,单一脚本双语训练效果很好。
- 通过 Tacotron2 + Waveglow 设置评估单说话人适应和多说话人训练,结果显示单说话人适应效果更好。
- 结合迁移学习和仅解码器微调来提高性能。
- 与 Google TTS 比较,使用迁移学习方法获得 CMOS 分数为 0.02。
- 低资源语音适应实验表明只需 3 小时的数据即可引入新语音。
- 强调预先训练模型在资源受限设置中的重要性。
- 在大量领域外纯代码混合句子上进行了主观评估,展示系统的高质量。
➡️