薛定谔桥在文本转语音合成上胜过扩散模型
原文中文,约400字,阅读约需1分钟。发表于: 。在这项研究中,我们提出了一种新的文本到语音系统,Bridge-TTS,通过将已建立的基于扩散的 TTS 方法中的嘈杂高斯先验替换为干净的确定性先验,以实现对目标的强结构信息的首次替代。
研究人员提出了Diff-LM-Speech和Tetra-Diff-Speech两种新的TTS方法,前者使用mel-spectrogram和提示编码结构提高语义表示能力,后者通过持续时间扩散模型实现多样化的韵律表达。实验结果显示这些方法优于基准方法。