小红花·文摘

基于Lip2Vec的视觉语音识别（VSR）模型通过学习先验模型，将嘴唇序列的编码潜在表示映射到音频潜在表示，实现文本解码。在LRS3数据集上，该方法实现了26%的错误率（WER），并在VoxCeleb测试集上保持了合理的性能，缩小了口语识别与视觉语音识别之间的性能差距。