观看、聆听和识别:基于字符的音频视觉字幕

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本论文研究了唇语识别,提出了两种模型并介绍了新数据集LRS2-BBC,实验结果超过以前的相关工作。

🎯

关键要点

  • 本论文研究唇语识别,旨在识别说话者嘴唇所述的短语和句子。
  • 提出了两种模型:使用自注意力机制的 CTC 和序列到序列模型。
  • 研究唇语识别在有噪音情况下与音频识别的互补性。
  • 介绍并公开发布了新数据集 LRS2-BBC,包含成千上万的自然语言数据。
  • 建立的模型在实验中的表现超过了以前的相关工作。
➡️

继续阅读