HallE-Switch:对大型视觉语言模型中细节描述进行重新思考与控制物体存在幻觉
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了使用GPT-4的辅助评估方法CCEval来解决大型视觉-语言模型在细节描述方面存在的问题。通过调查和归因图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响,以及通过引入HallE-Switch来减少对象存在上的幻觉。该方法与LLaVA$_{7B}$相比减少了44%的幻觉,并且保持了相同的对象覆盖率。
🎯
关键要点
- 当前的大型视觉-语言模型在细节描述方面存在明显不足。
- 本研究提出了使用GPT-4的辅助评估方法CCEval来解决这个问题。
- 研究调查了图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响。
- 引入HallE-Switch,一种可控的LVLM,来减少对象存在上的幻觉。
- 该方法与LLaVA$_{7B}$相比减少了44%的幻觉,并保持了相同的对象覆盖率。
➡️