ROSE:基于多目标学习的空中交通管制中面向识别的语音增强框架
原文中文,约200字,阅读约需1分钟。发表于: 。提出了一种基于编码器 - 解码器的 U-Net 框架的识别导向语音增强(ROSE)框架,以消除空中交通管制 (ATC) 领域的无线电语音回声,并提高语音可懂性和自动语音识别 (ASR) 准确性。ROSE 在 ATC 场景中作为即插即用工具,无需对 ASR 模型进行额外的重新训练。
本文提出了一种高效的噪声语音情感识别(NSER)方法,通过采用自动语音识别(ASR)模型作为噪声鲁棒特征提取器来消除噪声语音中的非语音信息,以解决传统 NSER 方法在真实环境中对非平稳噪声的复杂性和不确定性的限制。实验证明,该方法在 NSER 性能上优于传统的噪声减少方法,胜过自监督学习方法,并且即使在使用 ASR 转录或噪声语音的基准转录的文本方法中也表现优异。