本研究提出了一种新型双路径框架BSP-MPNet,结合自监督特征与幅度-相位信息,针对现有语音增强技术的不足,在多种噪声条件下表现优于现有方法,为自监督语音增强研究提供了新方向。
通过训练文本导向、环境感知的模型,将预训练文本编码器提取的文本环境嵌入到基于Transformer的SER模型中,改善了SER系统在噪声条件下的性能。在低信噪比条件下,该方法在唤醒情感、支配和愉悦度上的性能提升分别达到31.8%、23.5%和9.5%。
完成下面两步后,将自动完成登录并继续当前操作。