自我监督特征在说话人验证模型中起到重要作用,本研究发现预训练的自我监督语音特征可以简化下游模型并提高性能。通过重新设计模型,我们证明可以使用更少的参数并获得更好的性能。在SUPERB上,我们实现了29.93%的平均性能提升。简化的下游模型比基线更具数据效率,只需使用60%的训练数据即可获得更好的性能。
SelfVC是一种训练策略,使用自我监督学习和说话人验证模型生成的交织的语音表示来训练具有可控性的语音转换模型,并通过创建具有挑战性的自我合成示例来不断改进模型。该模型适用于零样本语音转换、跨语言语音转换以及具有音高和语速修改的可控语音合成任务。在自然度、说话人相似度和可理解性的评估指标上,SelfVC 在零样本语音转换方面取得了最先进的结果。
完成下面两步后,将自动完成登录并继续当前操作。