非语音音频诱导的Whisper ASR幻觉研究
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题,分析了不同声音诱导的幻觉,并提出了幻觉袋后处理方法,有效降低了字错误率。
🎯
关键要点
- 本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题。
- 分析了不同声音诱导的幻觉,发现了一组频繁出现的幻觉。
- 研究了通过增强语音与非语音音频段混合所导致的幻觉。
- 提出了幻觉袋(BoH)后处理方法,有效降低了字错误率(WER)。
- 该方法为解决自动语音识别中的常见问题提供了良好的保障。
➡️