零样本语音克隆的多模态对抗训练
原文中文,约300字,阅读约需1分钟。发表于: 。本文解决了文本转语音(TTS)模型在零样本语音克隆任务中无法有效建模人类语音自然变异的问题。通过引入一种新的Transformer编码器-解码器架构并应用对抗训练,显著提升了语音质量和说话者相似性。研究结果展示了该方法在多个说话者数据集上的有效性,潜力巨大。
该文章介绍了SLMGAN,一种利用SLM在GAN框架中实现鉴别任务的新方法,特别用于语音转换。通过添加基于SLM的WavLM鉴别器和新设计的SLM特征匹配损失函数,实现了无监督的零样本语音转换系统。主观评估结果显示,SLMGAN在自然度和相似性方面优于现有模型,展示了基于SLM的鉴别器的潜力。