小红花·文摘

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容。本文介绍了一种名为Visual Contrastive Decoding（VCD）的方法，通过对比原始和失真的视觉输入产生的输出分布，降低物体幻觉问题的影响，确保生成的内容与视觉输入密切相关。实验证明，VCD在不同的LVLM族群中减轻了物体幻觉问题，并在通用LVLM基准测试中表现出色。