CleanUNet 2:基于波形和频谱的混合语音降噪模型

💡 原文约300字/词,阅读约需1分钟。
📝

内容提要

该研究探讨了Wave-U-Net在语音增强中的应用,发现其可以提高多个指标,适合作为语音识别系统的预处理步骤。该结构在时域直接建模,考虑大的时间上下文信息的特点,相比原始的音乐中唱声分离系统,基于少量隐藏层的结构更适合语音增强。

🎯

关键要点

  • 研究了Wave-U-Net结构在语音增强中的应用。

  • Wave-U-Net在时域直接建模,考虑大的时间上下文信息。

  • 在Voice Bank corpus(VCTK)数据集上提高了多个指标,包括PESQ、CSIG、CBAK、COVL和SSNR。

  • 相比于原始的音乐中唱声分离系统,基于少量隐藏层的结构更适合语音增强。

  • 该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号。

  • Wave-U-Net可以作为语音识别系统的预处理步骤。

➡️

继续阅读