本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。
完成下面两步后,将自动完成登录并继续当前操作。