SEF-VC:无说话人嵌入的零样本声音转换与交叉注意力
原文中文,约300字,阅读约需1分钟。发表于: 。SEF-VC 是一种无需说话者嵌入的语音转换模型,通过强大的位置不可知的跨注意力机制从参考语音中学习和融入说话者音色,并以非自回归的方式从 HuBERT 语义标记中重建波形,提高了稳定性和语音转换性能。客观和主观评价证明了 SEF-VC 相对于强零样本 VC 基线的优越性,在生成高质量语音时与目标参考的相似性更好,即使对于非常短的参考讲话。
SelfVC是一种训练策略,通过自我合成的示例来改进语音转换模型。它适用于零样本语音转换、跨语言语音转换以及可控语音合成任务。SelfVC在自然度、说话人相似度和可理解性方面取得了最先进的结果。