基于峰值的音频指纹的音乐增强与降噪

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文介绍了一个改进的训练框架,用于训练单声道神经增强模型,以提高鲁棒语音识别的性能。该框架利用混合不变训练准则,扩展了未配对的干净语音和真实嘈杂数据,提高了从真实嘈杂语音中分离出来的语音质量,并通过处理和未处理信号的混合来缓解处理伪影。实验证明,相对 WER 减少了 16% 到 39%。

🎯

关键要点

  • 提出了一个改进的训练框架,用于训练单声道神经增强模型。
  • 该框架利用混合不变训练准则,扩展了未配对的干净语音和真实嘈杂数据。
  • 提高了从真实嘈杂语音中分离出来的语音质量。
  • 通过处理和未处理信号的混合来缓解处理伪影。
  • 在单通道 CHiME-3 真实测试集上进行实验证明,WER 相对减少了 16% 到 39%。
➡️

继续阅读