语音增强的语言建模用于文本到语音合成
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种声学增强的语言建模方法,通过使用语音单元预测中的错误积累来改善 TTS 模型的性能,通过自我监督表示来作为自回归语言模型的训练目标,并采用非自回归模型来预测包含细粒度声学细节的离散声学编解码器,以减少非自回归训练中的错误传播,客观和主观评估验证了我们提出方法的有效性。
研究人员提出了Diff-LM-Speech和Tetra-Diff-Speech方法来改进语音合成的表达能力,这些方法优于基准方法。