Scene-Aware Audio-Visual Speech Enhancement with Selective State Space Model
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新方法,通过同步视频中的上下文信息来改善语音增强,尤其在遮挡或远摄环境下表现优越。实验结果表明,该方法在多个数据集上超越了现有技术。
🎯
关键要点
-
本研究提出了一种新方法,通过同步视频中的上下文信息来改善语音增强。
-
该方法在遮挡或远摄环境下表现优越,解决了视觉信息利用不足的问题。
-
首次利用同步视频中的丰富上下文信息作为辅助线索来识别噪声类型。
-
实验结果表明,所提出的VC-S²E方法在多个公共数据集上的表现优于其他竞争方法。
🏷️