关于大型音视频语言模型中的音频幻觉
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究探讨了深度神经网络产生幻觉的原因,并提出了一种基于干扰的方法来评估自动语音识别模型的幻觉易发性。作者通过该方法成功区分了产生幻觉和不产生幻觉的模型,并研究了自动语音识别错误与数据集噪声之间的关系。最后,作者通过注入随机噪声的方式发现了诱导幻觉的方法。
🎯
关键要点
- 本研究探讨深度神经网络产生幻觉的原因。
- 幻觉在自动语音识别中定义为模型生成的转录与源话语在语义上无关。
- 幻觉影响系统的可信度,并带来误导的危险。
- 作者提出了一种基于干扰的方法来评估自动语音识别模型的幻觉易发性。
- 该方法不需要访问训练数据集,能够区分产生幻觉和不产生幻觉的模型。
- 研究了自动语音识别错误类型与数据集噪声类型之间的关系。
- 确定了最有可能产生幻觉输出的噪声类型。
- 通过注入随机噪声发现了诱导幻觉的方法。
➡️