元学习文本转语音在 7000 多种语言中的应用
原文中文,约400字,阅读约需1分钟。发表于: 。通过大规模多语言预训练和元学习,我们构建了一个能够在超过 7000 种语言中生成语音的单一文本转语音合成系统,并通过客观评估和人工评价验证了该系统在多样化语言环境下的性能。通过公开发布我们的代码和模型,我们旨在为语言资源有限的社区提供支持,并在语音技术领域促进进一步的创新。
本文介绍了一种适用于电子商务应用的生产级代码混合印地语-英语TTS系统的方法,通过数据为导向的单一脚本双语训练,使用Tacotron2 + Waveglow的设置进行单说话人适应和多说话人训练,结合迁移学习和仅解码器微调来提高性能。与Google TTS进行比较,使用提出的迁移学习方法获得了CMOS分数为0.02。低资源语音适应实验结果表明,只需3小时的数据即可引入新语音。主观评估显示系统具有高质量。