XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。
🎯
关键要点
- 提出了一种基于视觉模态的无监督噪声适应方案。
- 使用音位-音素映射技术从视觉信号中恢复干净音频。
- 该方案提高了AVSR系统的噪声鲁棒性。
- 在LRS3和LRS2数据集上进行的实验表明,该方法在各种噪声和清晰条件下达到了最先进水平。
- 在视觉语音识别任务上,该方法优于之前的最优水平。
➡️