FastFit是一种新型神经声码器架构,使用多个短时傅里叶变换来替换编码器,实现更快的生成速度,同时保持高音质。经过客观和主观评估,证明该模型提高了近两倍的基准迭代声码器的生成速度,且在多说话人和零-shot文本到语音等评估场景中,FastFit产生了与其他基线模型类似的音质。
完成下面两步后,将自动完成登录并继续当前操作。