HallE-Switch:对大型视觉语言模型中细节描述进行重新思考与控制物体存在幻觉
原文中文,约300字,阅读约需1分钟。发表于: 。当前的大型视觉 - 语言模型(LVLMs)在细节描述方面存在明显不足,本研究提出了使用 GPT-4 的辅助评估方法 CCEval 来解决这个问题。通过调查和归因图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响,以及通过引入 HallE-Switch,一种可控的 LVLM 来减少对象存在上的幻觉。该方法与 LLaVA$_{7B}$ 相比减少了 44% 的幻觉,并且保持了相同的对象覆盖率。
本研究提出了使用GPT-4的辅助评估方法CCEval来解决大型视觉-语言模型在细节描述方面存在的问题。通过调查和归因图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响,以及通过引入HallE-Switch来减少对象存在上的幻觉。该方法与LLaVA$_{7B}$相比减少了44%的幻觉,并且保持了相同的对象覆盖率。