该文章介绍了一种多阶段、多码本的高效神经TTS合成方法,使用VQ-VAE编码语音训练数据的Mel频谱图,并通过多阶段逐渐下采样,将其量化为多个具有不同时间分辨率的MSMC表示。神经声码器将预测的MSMCR转换为最终语音波形。实验证明,该方法在英语TTS数据库中性能优于基准值,同时低参数的紧凑版本也能保持高性能。
完成下面两步后,将自动完成登录并继续当前操作。