描述你所在的位置:通过环境的文本描述改善语音情感识别的噪音鲁棒性
原文中文,约400字,阅读约需1分钟。发表于: 。基于先前的环境知识最大化噪声条件下的 SER 性能,通过训练包含受污染的语音样本和其相关噪声描述的文本导向、环境感知的模型,并通过将基于预训练文本编码器提取的文本环境嵌入融合到基于 Transformer 的 SER 模型的训练和推断中,该研究证明文本环境描述通过大型语言模型产生的表示改善了 SER 系统的噪声鲁棒性,尤其在低信噪比条件下。在 - 5dB...
通过训练文本导向、环境感知的模型,将预训练文本编码器提取的文本环境嵌入到基于Transformer的SER模型中,改善了SER系统在噪声条件下的性能。在低信噪比条件下,该方法在唤醒情感、支配和愉悦度上的性能提升分别达到31.8%、23.5%和9.5%。