快速非自回归声乐伴奏生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种高质量的歌唱合成器,采用序列到序列的歌唱模型,并设计了一个多歌手框架来减轻歌唱评分不平衡的问题。通过加入对抗性任务和多随机窗口鉴别器,使编码器输出与歌手无关。客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音。

🎯

关键要点

  • 提出了一种高质量的歌唱合成器,能够在有限的可用录音基础上模拟出一种声音。
  • 采用序列到序列的歌唱模型,并设计了一个多歌手框架来减轻歌唱评分不平衡的问题。
  • 加入对抗性任务和多随机窗口鉴别器,使编码器输出与歌手无关。
  • 客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音。
  • 高音元音的表达得到了显著改善,MOS 值分别为 4.12 和 3.53。
➡️

继续阅读