HallE-Switch：对大型视觉语言模型中细节描述进行重新思考与控制物体存在幻觉

当前的大型视觉 - 语言模型（LVLMs）在细节描述方面存在明显不足，本研究提出了使用 GPT-4 的辅助评估方法 CCEval 来解决这个问题。通过调查和归因图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响，以及通过引入 HallE-Switch，一种可控的 LVLM 来减少对象存在上的幻觉。该方法与 LLaVA$_{7B}$ 相比减少了 44% 的幻觉，并且保持了相同的对象覆盖率。

本研究提出了使用GPT-4的辅助评估方法CCEval来解决大型视觉-语言模型在细节描述方面存在的问题。通过调查和归因图像分辨率、语言解码器大小、指示数据量与质量对幻觉产生的影响，以及通过引入HallE-Switch来减少对象存在上的幻觉。该方法与LLaVA$_{7B}$相比减少了44%的幻觉，并且保持了相同的对象覆盖率。