MSRS: 用稀疏掩码优化从零开始训练多模态语音识别模型
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。词错误率在微调后分别降至35%(LRS2)和45.7%(LRS3)。该模型训练时间短,能够在老旧硬件上实时进行端到端的视觉语音识别。
🎯
关键要点
- 该论文提出了一种新颖的资源高效方法,利用训练过的自动语音识别模型进行视觉语音识别。
- 该方法通过提取知识,在标准测试中以极少的资源实现了竞争性的性能。
- 基准模型在LRS2和LRS3测试基准上分别达到了47.4%和54.7%的词错误率。
- 在有限标记数据的微调后,词错误率降至35%(LRS2)和45.7%(LRS3)。
- 模型可以在几天内在单个消费级GPU上进行训练,并能够在老旧硬件上实时进行端到端的视觉语音识别。
- 该方法为实现更易于获取和高效利用资源的视觉语音识别提供了一个路径。
➡️