基于频域自回归建模的语音增强
原文中文,约400字,阅读约需1分钟。发表于: 。通过自回归(AR)模型在子带语音信号的频域中分离包络和载波部分,提出了一种改善语音质量和 ASR 性能的语音去混响统一框架,设计了基于双路径长短期记忆(DPLSTM)模型的神经网络结构,实现改善了子带包络和载波组件,进一步通过联合学习网络权重来优化 ASR 性能,该方法在 REVERB 挑战数据集和 VOiCES...
该文提出了一种基于自回归模型和双路径长短期记忆模型的语音去混响统一框架,能够显著提高语音质量和ASR性能。该方法在REVERB挑战数据集和VOiCES数据集上相较基线系统以及其他去混响基准方法显示出显著的性能改善,主观听测试进一步突显了音频还原质量的提升。