MOC-RVQ:多级码书辅助的数字生成语义通信
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种多阶段、多码本的高效神经TTS合成方法,使用VQ-VAE编码语音训练数据的Mel频谱图,并通过多阶段逐渐下采样,将其量化为多个具有不同时间分辨率的MSMC表示。神经声码器将预测的MSMCR转换为最终语音波形。实验证明,该方法在英语TTS数据库中性能优于基准值,同时低参数的紧凑版本也能保持高性能。
🎯
关键要点
- 提出了一种多阶段、多码本的高效神经TTS合成方法。
- 该方法使用VQ-VAE编码语音训练数据的Mel频谱图。
- 通过多阶段逐渐下采样,将数据量化为多个具有不同时间分辨率的MSMC表示。
- 神经声码器将预测的MSMCR转换为最终语音波形。
- 在16小时的英语TTS数据库中,该方法的MOS得分为4.41,优于基准值的3.62。
- 低参数的紧凑版本仍能保持高MOS得分。
- 消融研究表明多个阶段和多个码本对实现高性能TTS有效。
➡️