FreGrad:轻量级高速频率感知扩散语音合成器

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为FreGrad的扩散基声码器,用于生成逼真的音频。通过离散小波变换将复杂波形分解为子带小波,以帮助FreGrad在简单的特征空间上进行操作。实验结果表明,FreGrad相比基线模型在训练时间、推理速度和模型尺寸方面都有显著的优势。

🎯

关键要点

  • FreGrad是一种轻量级和快速的扩散基声码器,用于生成逼真的音频。
  • 通过离散小波变换将复杂波形分解为子带小波,以便在简单的特征空间上操作。
  • 设计了一种频率感知膨胀卷积,以提高频率感知性,产生准确频率信息的语音。
  • 引入了一些技巧,提升了模型的生成质量。
  • 实验结果显示,FreGrad相比基线模型训练时间缩短了3.7倍,推理速度提高了2.2倍,模型尺寸减小了0.6倍,且输出质量未受影响。
➡️

继续阅读