NaturalSpeech 3:基于分解编解码和扩散模型的零样本语音合成

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究人员提出了一种新的TTS方法,结合了两种离散语音表示形式,并使用两个序列到序列任务解耦合。他们还引入了提示编码结构和持续时间扩散模型,以提高韵律表达和语义编码的能力。实验结果表明,这种方法优于基准方法。

🎯

关键要点

  • 研究人员提出了一种新的TTS方法,结合了两种离散语音表示形式。

  • 该方法使用两个序列到序列任务解耦合,名为Diff-LM-Speech。

  • Diff-LM-Speech在扩散模型的基础上,将语义嵌入建模为基于mel-spectrogram。

  • 引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。

  • 提出了Tetra-Diff-Speech,通过设计持续时间扩散模型实现多样化的韵律表达。

  • Tri-Diff-Speech被提出以验证语义编码的必要性。

  • 实验结果表明,该方法优于基准方法。

  • 提供了一个包含音频样本的网站。

➡️

继续阅读