HiFTNet:具备谐波加噪滤波器和逆短时傅里叶变换的高速高质量神经声码器
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
FastFit是一种新型神经声码器架构,使用多个短时傅里叶变换来替换编码器,实现更快的生成速度,同时保持高音质。经过客观和主观评估,证明该模型提高了近两倍的基准迭代声码器的生成速度,且在多说话人和零-shot文本到语音等评估场景中,FastFit产生了与其他基线模型类似的音质。
🎯
关键要点
- FastFit是一种新的神经声码器架构。
- 使用多个短时傅里叶变换替换U-Net编码器。
- 实现更快的生成速度而不牺牲样品质量。
- 模型生成速度提高了近两倍。
- 在多说话人和零-shot文本到语音场景中,音质与其他基线模型相似。
➡️