ROSE:基于多目标学习的空中交通管制中面向识别的语音增强框架

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种高效的噪声语音情感识别(NSER)方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息,以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明,该方法在 NSER 性能上优于传统的噪声减少方法,胜过自监督学习方法,并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。

🎯

关键要点

  • 提出了一种高效的噪声语音情感识别(NSER)方法。
  • 采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器。
  • 解决了传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。
  • 实验证明该方法在 NSER 性能上优于传统的噪声减少方法。
  • 该方法胜过自监督学习方法。
  • 即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。
➡️

继续阅读