通过学习离散化的视觉口语单位单模型实现多语言视觉口语识别
原文中文,约400字,阅读约需1分钟。发表于: 。该研究探索了使用单个模型的句子级多语种视觉语音识别,通过将视觉语音单元离散化作为输入,基于自监督视觉语音模型从 5,512 小时的多语种音频 - 视觉数据上进行训练,结合曲线学习改善语音识别中的视觉信息缺失,实现了与以往特定语言视觉语音识别模型相当的性能。
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。在未标记的数据上,基准模型在LRS2和LRS3测试中分别达到了47.4%和54.7%的词错误率。在有限标记数据的微调后,词错误率降至35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。