MOC-RVQ:多级码书辅助的数字生成语义通信

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种多阶段、多码本的高效神经TTS合成方法,使用VQ-VAE编码语音训练数据的Mel频谱图,并通过多阶段逐渐下采样,将其量化为多个具有不同时间分辨率的MSMC表示。神经声码器将预测的MSMCR转换为最终语音波形。实验证明,该方法在英语TTS数据库中性能优于基准值,同时低参数的紧凑版本也能保持高性能。

🎯

关键要点

  • 提出了一种多阶段、多码本的高效神经TTS合成方法。
  • 该方法使用VQ-VAE编码语音训练数据的Mel频谱图。
  • 通过多阶段逐渐下采样,将数据量化为多个具有不同时间分辨率的MSMC表示。
  • 神经声码器将预测的MSMCR转换为最终语音波形。
  • 在16小时的英语TTS数据库中,该方法的MOS得分为4.41,优于基准值的3.62。
  • 低参数的紧凑版本仍能保持高MOS得分。
  • 消融研究表明多个阶段和多个码本对实现高性能TTS有效。
➡️

继续阅读