增强CTC基础的视觉语音识别
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对视觉语音识别 (VSR) 的性能提升问题,提出了LiteVSR2,一个在之前高效方法基础上改进的版本。通过引入稳定的视频预处理技术和特征归一化,LiteVSR2在LRS2和LRS3基准测试中显著提升了性能,显示出在不增加训练数据和计算资源的情况下,实现资源高效的VSR技术进步的潜力。
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法在VSR基准测试中以极少的资源实现了竞争性的性能,微调后的词错误率分别为35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。