小红花·文摘

该文章介绍了一种多阶段、多码本的高效神经TTS合成方法，使用VQ-VAE编码语音训练数据的Mel频谱图，并通过多阶段逐渐下采样，将其量化为多个具有不同时间分辨率的MSMC表示。神经声码器将预测的MSMCR转换为最终语音波形。实验证明，该方法在英语TTS数据库中性能优于基准值，同时低参数的紧凑版本也能保持高性能。