跨方言语音合成中的音调重音语言结合多方言音素级BERT
原文中文,约500字,阅读约需1分钟。发表于: 。本研究解决了跨方言语音合成(CD-TTS)的挑战,特别是在音调重音语言中。作者提出了一种新颖的TTS模型,结合了音素级重音潜变量的提取和多方言音素级BERT,以提高合成语音的自然性。实验结果表明,该模型在提升CD-TTS的方言自然性方面有显著效果,具有潜在的应用价值。
本研究探讨了无监督文本到语音合成作为数据增强方法,以改进口音语音识别的应用。通过生成带有口音的语音数据,并与无口音数据结合,可以减小字错误率。