BriefGPT - AI 论文速递 ·

从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本论文研究了大型视觉语言模型中的物体幻觉问题，提出了视觉对比解码和指令对比解码等改进方法，有效减轻幻觉现象并提升模型性能。同时，分析了幻觉的根本原因，并提出了新的评估基准，推动未来研究方向。

🎯

🔎

研究表明，大型视觉语言模型中的物体幻觉问题主要源于对局部图像特征的注意力不足。这一发现为后续改进模型的设计提供了重要依据，强调了在训练过程中对局部特征的重视。

本文提出的Hallu-PI基准为评估多模态大型语言模型在扰动输入下的表现提供了新的视角。这一基准的建立不仅有助于识别模型的幻觉现象，还为未来的研究指明了方向，推动了该领域的进步。

引入的视觉对比解码（VCD）和指令对比解码（ICD）方法，展示了在不需要额外训练的情况下有效减轻幻觉现象的潜力。这为实际应用中的模型优化提供了可行的解决方案，具有广泛的适用性。

❓

物体幻觉问题是指大型视觉语言模型在生成内容时，产生与视觉输入不一致或不准确的现象。

论文提出了视觉对比解码（VCD）、指令对比解码（ICD）和全局与局部注意力组装（AGLA）等方法来减轻物体幻觉现象。

论文建立了Hallu-PI基准和POPE评估方法，以评估多模态大型语言模型在扰动输入下的幻觉现象。

VCD方法通过对比原始和失真的视觉输入，降低物体幻觉的影响，确保生成内容与视觉输入相关。

ICD方法通过对标准和干扰指令的分布进行对比，增加对齐的不确定性，从而有效减轻幻觉并提升模型的感知和识别能力。

反事实数据增强方法通过生成多样化的负样本，有效缓解了CLIP模型中的幻觉问题，提升了模型表现。

🏷️