样式手册:只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出一种新方法,通过自监督学习 (SSL) 模型形成注意机制,从目标话语中提取丰富的风格信息并将其高效地转移到源语音内容,从而在无需文本转录或说话者标签的情况下忠实地再现目标说话者的说话风格。通过将风格信息和源语音内容作为输入,利用扩散式解码器生成转换的语音 mel 频谱图,实验证明本方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性,并且对于长话语的计算复杂度增加的抑制效果较好。
本文提出了一种新方法,通过自监督学习模型形成注意机制,从目标话语中提取风格信息并将其转移到源语音内容,实现目标说话者的说话风格再现。实验证明该方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性,并且对于长话语的计算复杂度增加的抑制效果较好。