通过视觉对比解码减轻大型视觉语言模型中的物体幻觉
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
大视觉语言模型(LVLMs)通过视觉识别和语言理解相结合,生成连贯且与上下文相关的内容。本文介绍了一种名为Visual Contrastive Decoding(VCD)的方法,通过对比原始和失真的视觉输入产生的输出分布,降低物体幻觉问题的影响,确保生成的内容与视觉输入密切相关。实验证明,VCD在不同的LVLM族群中减轻了物体幻觉问题,并在通用LVLM基准测试中表现出色。
🎯
关键要点
- 大视觉语言模型(LVLMs)结合视觉识别和语言理解,生成连贯且与上下文相关的内容。
- 物体幻觉问题仍然存在,影响生成内容的准确性。
- 提出了一种名为Visual Contrastive Decoding(VCD)的方法,旨在降低物体幻觉问题的影响。
- VCD通过对比原始和失真的视觉输入产生的输出分布,有效降低统计偏差和单模式先验的影响。
- VCD不需要额外的训练或使用外部工具,显著减轻了不同LVLM族群中的物体幻觉问题。
- VCD在通用LVLM基准测试中表现出色,展示了其广泛的适用性。
➡️