Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

基于Lip2Vec的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到音频潜在表示,实现文本解码。在LRS3数据集上,该方法实现了26%的错误率(WER),并在VoxCeleb测试集上保持了合理的性能,缩小了口语识别与视觉语音识别之间的性能差距。

🎯

关键要点

  • 基于Lip2Vec的视觉语音识别(VSR)模型通过学习先验模型实现文本解码。
  • 该模型将嘴唇序列的编码潜在表示映射到音频潜在表示。
  • 在LRS3数据集上,该方法实现了26%的错误率(WER)。
  • 在VoxCeleb测试集上,该模型保持了合理的性能。
  • 该方法缩小了口语识别与视觉语音识别之间的性能差距。
➡️

继续阅读