Lip2Vec: 通过隐藏到隐藏的视听表示映射实现高效稳健的视觉语音识别
原文中文,约400字,阅读约需1分钟。发表于: 。基于 Lip2Vec 的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到对应的音频潜在表示,以实现有效的文本解码。利用现成的音频语音识别(ASR)模型将生成的音频表示解码为文本,该方法在 LRS3 数据集上实现了 26 的错误率(WER),并在 VoxCeleb 测试集上保持了合理的性能,为更灵活的口型阅读形式拉近了口语识别与视觉语音识别之间的性能差距。
基于Lip2Vec的视觉语音识别(VSR)模型通过学习先验模型,将嘴唇序列的编码潜在表示映射到音频潜在表示,实现文本解码。在LRS3数据集上,该方法实现了26%的错误率(WER),并在VoxCeleb测试集上保持了合理的性能,缩小了口语识别与视觉语音识别之间的性能差距。