HierSpeech++:通过分层变分推断在语音的语义和声学表示之间建立联系以进行零样本语音合成
原文中文,约400字,阅读约需1分钟。发表于: 。HierSpeech++ 是一种快速而强大的零样本语音合成器,适用于文本转语音(TTS)和语音转换(VC),通过采用层次化语音合成框架,显著提高了合成语音的健壮性、表达力和自然度,在零样本语音合成场景中实现了人类级质量。
研究人员提出了两种新的TTS方法:Diff-LM-Speech和Tetra-Diff-Speech,前者使用mel-spectrogram和提示编码结构提高语义表示能力,后者通过持续时间扩散模型实现多样化的韵律表达。实验结果显示,这些方法优于基准方法。