ROSE:基于多目标学习的空中交通管制中面向识别的语音增强框架
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种高效的噪声语音情感识别(NSER)方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息,以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明,该方法在 NSER 性能上优于传统的噪声减少方法,胜过自监督学习方法,并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。
🎯
关键要点
- 提出了一种高效的噪声语音情感识别(NSER)方法。
- 采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器。
- 解决了传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。
- 实验证明该方法在 NSER 性能上优于传统的噪声减少方法。
- 该方法胜过自监督学习方法。
- 即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。
🏷️
标签
➡️