利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该论文提出了一种面向低资源语言的强大的视觉语音识别方法,使用Whisper模型进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的VSR性能,并提供了大规模无标注多语言数据库的自动标签。
🎯
关键要点
- 该论文提出了一种面向低资源语言的视觉语音识别方法。
- 使用Whisper模型进行语言识别和基于音频的语音识别。
- 在没有人工注释的情况下获得与人工注释标签相似的VSR性能。
- 提供了大规模无标注多语言数据库的自动标签。
➡️