MBTFNet:多频段时间频率神经网络用于歌声增强
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
研究发现Wave-U-Net在语音增强中应用可提高多个指标,适合作为语音识别系统预处理步骤。
🎯
关键要点
- 研究了Wave-U-Net结构在语音增强中的应用。
- Wave-U-Net在时域直接建模时能够考虑大的时间上下文信息。
- 在Voice Bank corpus(VCTK)数据集上,Wave-U-Net提高了PESQ、CSIG、CBAK、COVL和SSNR多个指标。
- 基于少量隐藏层的Wave-U-Net结构更适合语音增强。
- 研究结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号。
- Wave-U-Net可以作为语音识别系统的预处理步骤。
➡️