增强CTC基础的视觉语音识别
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法在VSR基准测试中以极少的资源实现了竞争性的性能,微调后的词错误率分别为35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。
🎯
关键要点
- 该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。
- 该方法在VSR基准测试中以极少的资源实现了竞争性的性能。
- 微调后的词错误率分别为35%(LRS2)和45.7%(LRS3)。
- 模型可以在几天内在单个GPU上进行训练。
- 该模型能够在老旧硬件上实时进行端到端的VSR。
- 为实现更易于获取和高效利用资源的VSR方法提供了一个路径。
➡️