基于对称视角的冗余感知唇读模型

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本论文研究了使用自注意力机制的CTC和序列到序列两种模型进行唇语识别,并介绍了新的数据集LRS2-BBC。实验结果表明,该模型在唇语识别方面表现优于以前的相关工作。

🎯

关键要点

  • 本论文研究唇语识别,包含有音频和无音频的短语和句子。
  • 提出了使用自注意力机制的CTC和序列到序列模型进行唇语识别。
  • 研究唇语识别在有噪音情况下与音频识别的互补性。
  • 介绍并公开发布了新的数据集LRS2-BBC,包含成千上万的自然语言数据。
  • 实验结果表明,所建立的模型在唇语识别方面优于以前的相关工作。
➡️

继续阅读