小红花·文摘

FastFit是一种新型神经声码器架构，使用多个短时傅里叶变换来替换编码器，实现更快的生成速度，同时保持高音质。经过客观和主观评估，证明该模型提高了近两倍的基准迭代声码器的生成速度，且在多说话人和零-shot文本到语音等评估场景中，FastFit产生了与其他基线模型类似的音质。