使用无旋律监督预训练提升单音人声合成的音域

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种高质量的歌唱合成器,利用序列到序列的歌唱模型和多歌手框架来模拟声音。通过对抗性任务和多随机窗口鉴别器,保证了模型的平衡性。客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音,特别是高音元音的表达得到了显著改善。

🎯

关键要点

  • 提出了一种高质量的歌唱合成器,能够在有限的可用录音基础上模拟声音。
  • 采用序列到序列的歌唱模型,并设计了多歌手框架以利用不同歌手的现有歌唱数据。
  • 加入对抗性任务和多随机窗口鉴别器以保证模型的平衡性。
  • 客观和主观评估表明,该合成器比基准测试产生更高质量的歌唱声音。
  • 特别是高音元音的表达得到了显著改善,MOS 值分别为 4.12 和 3.53。
➡️

继续阅读