快速非自回归声乐伴奏生成
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种高质量的歌唱合成器,采用序列到序列的歌唱模型,并设计了一个多歌手框架来减轻歌唱评分不平衡的问题。通过加入对抗性任务和多随机窗口鉴别器,使编码器输出与歌手无关。客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音。
🎯
关键要点
- 提出了一种高质量的歌唱合成器,能够在有限的可用录音基础上模拟出一种声音。
- 采用序列到序列的歌唱模型,并设计了一个多歌手框架来减轻歌唱评分不平衡的问题。
- 加入对抗性任务和多随机窗口鉴别器,使编码器输出与歌手无关。
- 客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音。
- 高音元音的表达得到了显著改善,MOS 值分别为 4.12 和 3.53。
➡️