小红花·文摘

本文提出了一种新方法，通过自监督学习模型形成注意机制，从目标话语中提取风格信息并将其转移到源语音内容，实现目标说话者的说话风格再现。实验证明该方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性，并且对于长话语的计算复杂度增加的抑制效果较好。