CPSP: 从音素监督中学习语音概念
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一种名为对比音素 - 语音预训练(CPSP)的方法,通过对比学习将音素和语音连接到联合多模态空间,并在帧级别学习如何连接音素和语音,从而实现了最小监督的文本到语音(TTS)、语音转换(VC)和自动语音识别(ASR)任务。
最近对可以以最低限度的监督进行训练的TTS方法产生了兴趣。Diff-LM-Speech将语义嵌入建模为基于mel-spectrogram,并引入了提示编码结构。Tetra-Diff-Speech通过设计一个持续时间扩散模型来实现多样化的韵律表达。Tri-Diff-Speech验证了语义编码的必要性。实验结果表明,这些方法优于基准方法。