MOC-RVQ:多级码书辅助的数字生成语义通信
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种多阶段、多码本的高效神经TTS合成方法,使用VQ-VAE编码语音训练数据的Mel频谱图,并通过多阶段逐渐下采样,将其量化为多个具有不同时间分辨率的MSMC表示。神经声码器将预测的MSMCR转换为最终语音波形。实验证明,该方法在英语TTS数据库中性能优于基准值,同时低参数的紧凑版本也能保持高性能。
🎯
关键要点
-
提出了一种多阶段、多码本的高效神经TTS合成方法。
-
该方法使用VQ-VAE编码语音训练数据的Mel频谱图。
-
通过多阶段逐渐下采样,将数据量化为多个具有不同时间分辨率的MSMC表示。
-
神经声码器将预测的MSMCR转换为最终语音波形。
-
在16小时的英语TTS数据库中,该方法的MOS得分为4.41,优于基准值的3.62。
-
低参数的紧凑版本仍能保持高MOS得分。
-
消融研究表明多个阶段和多个码本对实现高性能TTS有效。
➡️