CNVSRC 2024 年视觉语音识别的 NPU-ASLP 系统描述
原文中文,约400字,阅读约需1分钟。发表于: 。本论文介绍了 NPU-ASLP 团队在第二届中国连续视觉语音识别挑战赛(CNVSRC 2024)中引入的视觉语音识别(VSR)系统,涵盖了单扬声器和多扬声器任务的固定和开放路径。通过利用基线方法的唇部动作提取器,我们产生了多尺度视频数据,并在培训过程中应用了各种增强技术。VSR 模型采用端到端架构,使用联合 CTC / 注意力损失函数,并引入了 Enhanced ResNet3D...
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法在标准测试中以极少的资源实现了竞争性的性能,微调后的词错误率分别为35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。