增强CTC基础的视觉语音识别

本研究针对视觉语音识别 (VSR) 的性能提升问题，提出了LiteVSR2，一个在之前高效方法基础上改进的版本。通过引入稳定的视频预处理技术和特征归一化，LiteVSR2在LRS2和LRS3基准测试中显著提升了性能，显示出在不增加训练数据和计算资源的情况下，实现资源高效的VSR技术进步的潜力。

该论文提出了一种新颖的资源高效方法，利用已训练的自动语音识别模型进行视觉语音识别。该方法在VSR基准测试中以极少的资源实现了竞争性的性能，微调后的词错误率分别为35%（LRS2）和45.7%（LRS3）。该模型可以在几天内在单个GPU上进行训练，并能够在老旧硬件上实时进行端到端的VSR。