本研究提出了一种名为DASH(系统性幻觉检测与评估)的方法,旨在识别视觉语言模型(VLMs)在开放环境中的幻觉现象。研究表明,通过DASH优化特定图像微调,可以有效减轻VLM的对象幻觉问题。
本文研究了大型视觉语言模型(LVLM)中的对象幻觉问题,提出了一种新方法——真实引导预干预(TruthPrInt)。研究发现,LVLM的内部状态可以指示幻觉行为,不同模型在潜在子空间中表现出相似的幻觉模式。实验结果表明,TruthPrInt在多个基准测试中显著优于现有方法。
本研究提出统一注意力校准(UAC)和动态注意力校准(DAC)方法,旨在解决大型视觉-语言模型在多模态推理中的对象幻觉问题,从而显著提升对齐准确性。
本研究解决了大型视觉语言模型中生成文本与图像不符的问题。提出的同心因果注意力策略改善了视觉和指令token的交互,显著减少了对象幻觉现象,并在多个基准测试中优于现有方法。
本研究提出了一种名为DAMRO的无训练策略,解决视觉语言模型中的对象幻觉问题。通过分析注意力机制,DAMRO减少了对冗余信息的关注,过滤背景中的高注意力异常标记,提高模型准确性和可靠性。
该文介绍了一种新型基准——基于视觉问题回答的负面对象存在评估(NOPE),用于评估视觉语言模型中的对象幻觉问题。研究发现,所有模型在负面代词上的准确率都低于10%,且词汇多样性、大范围的问题类型和与场景相关的对象会增加视觉语言模型中对象幻觉的风险。
完成下面两步后,将自动完成登录并继续当前操作。