小红花·文摘

本文提出了一种基于视觉模态的无监督噪声适应方案，通过音位-音素映射技术从视觉信号中恢复干净音频，提高AVSR系统的噪声鲁棒性。实验结果表明，该方法在各种噪声和清晰条件下都达到了最先进水平，并在视觉语音识别任务上优于之前的最优水平。