非语音音频诱导的Whisper ASR幻觉研究

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题,分析了不同声音诱导的幻觉,并提出了幻觉袋后处理方法,有效降低了字错误率。

🎯

关键要点

  • 本研究探讨了Whisper ASR模型在自动语音识别中的幻觉问题。
  • 分析了不同声音诱导的幻觉,发现了一组频繁出现的幻觉。
  • 研究了通过增强语音与非语音音频段混合所导致的幻觉。
  • 提出了幻觉袋(BoH)后处理方法,有效降低了字错误率(WER)。
  • 该方法为解决自动语音识别中的常见问题提供了良好的保障。
➡️

继续阅读