样式手册:只使用语音数据进行任意 - 任意语音转换的内容相关说话风格建模

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种新方法,通过自监督学习模型形成注意机制,从目标话语中提取风格信息并将其转移到源语音内容,实现目标说话者的说话风格再现。实验证明该方法与扩散式生成模型结合能在任何语音转换任务中实现更好的说话者相似性,并且对于长话语的计算复杂度增加的抑制效果较好。

🎯

关键要点

  • 提出了一种新方法,通过自监督学习模型形成注意机制。
  • 从目标话语中提取风格信息并将其转移到源语音内容。
  • 实现目标说话者的说话风格再现,无需文本转录或说话者标签。
  • 将风格信息和源语音内容作为输入,利用扩散式解码器生成转换的语音 mel 频谱图。
  • 实验证明该方法与扩散式生成模型结合能提高说话者相似性。
  • 该方法对长话语的计算复杂度增加有较好的抑制效果。
➡️

继续阅读