DurFlex-EVC: 持续可变情感语音转换并行生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种基于序列到序列模型的 Duration-Flexible 情感语音转换方法,通过引入样式自编码器和单位对齐器,实现了并行语音生成,提高了转换的可靠性和效率。该方法通过跨注意机制将语言和语外信息与各种情感同步,并通过样式自编码器对样式元素进行解耦和操作。经过主客观评估证明了该方法在领域内的优越性。

🎯

关键要点

  • 本研究提出了一种基于序列到序列模型的 Duration-Flexible 情感语音转换方法 (DurFlex-EVC)。
  • 该方法通过引入样式自编码器和单位对齐器,实现了同时建模音高和持续时间的并行语音生成。
  • DurFlex-EVC 提高了转换的可靠性和效率。
  • 通过跨注意机制,该方法将语言和语外信息的自监督学习表示与各种情感同步。
  • 样式自编码器用于对样式元素进行解耦和操作。
  • 经过主客观评估,证明了该方法在领域内的优越性。
➡️

继续阅读