小红花·文摘

该论文提出了一种新颖的资源高效方法，利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识，在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上，基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后，词错误率降至35%（LRS2）和45.7%（LRS3）。该模型可以在几天内在单个GPU上进行训练，并能够在老旧硬件上实时进行端到端的VSR。