利用微调和最小前瞻波束搜索改善 Whisper
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了对Whisper语音识别模型的改进,通过在额外数据上微调和使用改进的解码算法,提高了在低资源语言方面的性能。使用Filter-Ends和Min Lookahead解码算法,WER相对于标准beam search平均减少了2.26。
🎯
关键要点
- Whisper语音识别模型在低资源语言方面的性能仍需改进。
- 通过在额外数据上微调Whisper,性能得到了提升。
- 在越南语上,使用LoRA对Whisper-Tiny进行微调,WER提高了38.49。
- 相对于完全参数微调,WER减少了1.45。
- 使用Filter-Ends和Min Lookahead解码算法,WER平均减少了2.26。
- 这些改进适用于更大的Whisper模型尺寸。
- Min Lookahead解码算法优于Whisper中使用的标准beam search算法。
➡️