HiFTNet:具备谐波加噪滤波器和逆短时傅里叶变换的高速高质量神经声码器

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

FastFit是一种新型神经声码器架构,使用多个短时傅里叶变换来替换编码器,实现更快的生成速度,同时保持高音质。经过客观和主观评估,证明该模型提高了近两倍的基准迭代声码器的生成速度,且在多说话人和零-shot文本到语音等评估场景中,FastFit产生了与其他基线模型类似的音质。

🎯

关键要点

  • FastFit是一种新的神经声码器架构。
  • 使用多个短时傅里叶变换替换U-Net编码器。
  • 实现更快的生成速度而不牺牲样品质量。
  • 模型生成速度提高了近两倍。
  • 在多说话人和零-shot文本到语音场景中,音质与其他基线模型相似。
➡️

继续阅读