利用 Whisper 模型的自动标签实现低资源语种的视觉语音识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该论文提出了一种面向低资源语言的强大的视觉语音识别方法,使用Whisper模型进行语言识别和基于音频的语音识别,从而在没有人工注释的情况下获得与人工注释标签相似的VSR性能,并提供了大规模无标注多语言数据库的自动标签。

🎯

关键要点

  • 该论文提出了一种面向低资源语言的视觉语音识别方法。
  • 使用Whisper模型进行语言识别和基于音频的语音识别。
  • 在没有人工注释的情况下获得与人工注释标签相似的VSR性能。
  • 提供了大规模无标注多语言数据库的自动标签。
➡️

继续阅读