深度状态空间建模的原始语音增强

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了通用降噪框架D4AM,通过调整语音增强模型和辅助损失,改善未知声学模型性能。实验结果显示,相对于嘈杂输入,该框架在Google ASR API上降低了24.65%的相对WER。

🎯

关键要点

  • 在嘈杂环境中,声学模型的性能明显下降。
  • 本研究提出了通用降噪框架D4AM,用于各种下游声学模型。
  • D4AM通过反向梯度调整语音增强模型,考虑回归目标作为辅助损失。
  • 该方法可以直接估计合适的权重系数,避免额外的训练成本。
  • 实验结果显示,该框架在Google ASR API上降低了24.65%的相对WER。
  • D4AM是首个实现回归和分类目标有效组合的通用预处理器,适用于各种未知ASR系统。
➡️

继续阅读