BriefGPT - AI 论文速递 ·

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文探讨了大规模视觉语言模型（LVLMs）中的物体幻觉问题，并提出了视觉对比解码（VCD）、指令对比解码（ICD）和自我反思解码（SID）等新方法。这些方法通过增强视觉与文本之间的联系，提高了生成内容的准确性和质量，减少了幻觉现象，推动了多模态模型的实际应用。

🎯

🔎

物体幻觉问题严重影响了大型视觉语言模型（LVLMs）的生成内容准确性。这种现象不仅降低了模型的实用性，还可能导致用户对生成结果的误解。因此，研究者们亟需找到有效的方法来减轻这一问题，以提升模型在实际应用中的可靠性。

本文提出的视觉对比解码（VCD）、指令对比解码（ICD）和自我反思解码（SID）等新方法，均显示出在无需额外训练的情况下显著减轻幻觉现象。这些方法的有效性为未来多模态模型的开发提供了新的思路，尤其是在提升生成文本质量和准确性方面。

层次反馈学习框架（HELPD）通过在物体和句子语义层面提供幻觉反馈，展现了在边际训练情况下有效降低幻觉的潜力。这一框架的引入可能为多模态模型的进一步优化提供新的方向，尤其是在处理复杂的视觉和语言任务时。

❓

物体幻觉问题是指大型视觉语言模型在生成内容时，错误地表示视觉输入中的对象，导致生成的文本与实际视觉内容不一致。

VCD通过对比原始和失真的视觉输入的输出分布，降低统计偏差和单模式先验的影响，从而确保生成内容与视觉输入密切相关。

ICD通过对比标准和干扰指令的分布，显著减轻物体级和属性级幻觉，同时提升LVLM的感知和识别能力。

SID通过评估视觉令牌的重要性，减少幻觉现象，从而提高生成文本的质量和真实性。

HELPD通过在物体和句子语义层面提供幻觉反馈，有效降低幻觉现象，并能与任何LVLM无缝集成。

反事实数据增强方法通过生成多样化的负样本，有效缓解幻觉问题，从而提升CLIP模型的表现。

🏷️