XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。

🎯

关键要点

  • 提出了一种基于视觉模态的无监督噪声适应方案。
  • 使用音位-音素映射技术从视觉信号中恢复干净音频。
  • 该方案提高了AVSR系统的噪声鲁棒性。
  • 在LRS3和LRS2数据集上进行的实验表明,该方法在各种噪声和清晰条件下达到了最先进水平。
  • 在视觉语音识别任务上,该方法优于之前的最优水平。
➡️

继续阅读