BriefGPT - AI 论文速递 ·

通过重平衡对比解码减轻视觉语言模型中的幻觉

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文探讨了大型视觉语言模型（LVLMs）中的幻觉问题，提出了多种无训练方法（如VCD和ICD）以减少幻觉并提升模型性能。研究表明，这些方法有效降低了模型对视觉输入的依赖，增强了生成内容的准确性，并在多个基准测试中取得显著改进。此外，提供了包含多种视觉幻觉类型的数据集，以支持进一步研究。

🎯

❓

大型视觉语言模型（LVLMs）中的幻觉问题是指模型生成的内容不准确地反映视觉输入，导致生成的文本与实际视觉内容不一致。

VCD通过对比原始和失真的视觉输入，降低统计偏差和单模式先验的影响，从而确保生成内容与视觉输入相关，减轻幻觉现象。

ICD方法旨在减少LVLM推断过程中的幻觉，并显著提升模型的感知和识别能力。

研究分析了八种视觉幻觉类型，包括上下文猜测、身份不一致、地理错误、视觉错觉、性别异常、VLM作为分类器、错误阅读和数字不一致。

Residual Visual Decoding方法旨在缓解多模态幻觉扩散现象，提升大型视觉语言模型的性能。

VHILT数据集包含2,000个样本，旨在支持对视觉幻觉类型的进一步研究。

🏷️