CleanUNet 2:基于波形和频谱的混合语音降噪模型
原文约300字/词,阅读约需1分钟。发表于: 。CleanUNet 2 是一种语音降噪模型,将波形降噪器和声谱图降噪器的优点结合起来,通过一个由波形模型和声谱图模型组成的两阶段框架,进一步提高了性能,相比之前的方法在各种客观和主观评估中表现更好。
该研究探讨了Wave-U-Net在语音增强中的应用,发现其可以提高多个指标,适合作为语音识别系统的预处理步骤。该结构在时域直接建模,考虑大的时间上下文信息的特点,相比原始的音乐中唱声分离系统,基于少量隐藏层的结构更适合语音增强。