使用无旋律监督预训练提升单音人声合成的音域
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种高质量的歌唱合成器,利用序列到序列的歌唱模型和多歌手框架来模拟声音。通过对抗性任务和多随机窗口鉴别器,保证了模型的平衡性。客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音,特别是高音元音的表达得到了显著改善。
🎯
关键要点
- 提出了一种高质量的歌唱合成器,能够在有限的可用录音基础上模拟声音。
- 采用序列到序列的歌唱模型,并设计了多歌手框架以利用不同歌手的现有歌唱数据。
- 加入对抗性任务和多随机窗口鉴别器以保证模型的平衡性。
- 客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音。
- 特别是高音元音的表达得到了显著改善,MOS 值分别为 4.12 和 3.53。
➡️