本研究提出了一种名为DASH(系统性幻觉检测与评估)的方法,旨在识别视觉语言模型(VLMs)在开放环境中的幻觉现象。研究表明,通过DASH优化特定图像微调,可以有效减轻VLM的对象幻觉问题。
本文研究了大型视觉语言模型(LVLM)中的对象幻觉问题,提出了一种新方法——真实引导预干预(TruthPrInt)。研究发现,LVLM的内部状态可以指示幻觉行为,不同模型在潜在子空间中表现出相似的幻觉模式。实验结果表明,TruthPrInt在多个基准测试中显著优于现有方法。
本研究提出了统一注意力校准(UAC)和动态注意力校准(DAC)方法,以减缓大型视觉-语言模型中的对象幻觉现象。这些方法有效提高了多模态对齐的准确性,推动了不同LVLM架构的性能达到最先进水平。
本文介绍了LVLM-eHub综合评估平台,利用多模态能力评估视觉基准,提出多轮推理框架以缓解对象幻觉问题。研究表明,引入双重聚焦机制和无训练算法后,视觉-语言任务性能得到了提升,偏见和幻觉现象减少,模型对图像内容的关注增强。
该论文研究了视觉语言预训练模型中的对象幻觉问题,提出了ObjMLM损失函数以减少幻觉现象。通过HA-DPO和VTI等新技术,显著提高了模型性能,降低了幻觉率,增强了视觉特征的稳定性。实验结果显示,这些方法在多个指标上超越了基线,推动了视觉语言模型的发展。
本研究解决了大型视觉语言模型中生成文本与图像不符的问题。提出的同心因果注意力策略改善了视觉和指令token的交互,显著减少了对象幻觉现象,并在多个基准测试中优于现有方法。
该论文研究了大型视觉语言模型(LVLMs)中的对象幻觉问题,提出了多种方法(如ObjMLM、ICD、SID等)以减少幻觉现象。实验结果表明,这些方法显著提高了模型的生成质量和准确性,并减少了幻觉的发生。同时,研究分析了幻觉的根本原因,并提出了新的评估基准,以推动未来的研究和改进。
本研究提出DAMRO策略,以减少大规模视觉语言模型中的对象幻觉问题。通过分析注意力机制,发现现有模型在注意力分配上存在缺陷,导致冗余信息被过度强调。DAMRO通过过滤高注意力异常标记,显著提升了模型的准确性和可靠性。
该论文研究了视觉语言预训练模型中的对象幻觉问题,提出了ObjMLM损失函数,实验表明该方法可减少幻觉现象17.4%。同时,介绍了M-HalDetect数据集及多种方法,如ICD和MVP框架,显著提升了模型的准确性并减少了幻觉。
本文介绍了LVLM-eHub综合评估平台,评估多模态大型语言模型在视觉感知和理解方面的能力。研究发现,现有模型在低层视觉技能上表现不稳定,且对象幻觉问题普遍存在。通过设计多种基准测试,揭示了模型在多图像处理和推理任务中的挑战,强调了进一步研究和开发的必要性。
本文提出了多种方法来检测和缓解大型视觉语言模型中的对象幻觉问题,包括LogicCheckGPT、LURE和ObjMLM等框架。这些方法通过改进视觉描述和评估基准,显著降低幻觉现象,提高模型性能。同时,研究探讨了幻觉的根本原因及未来研究方向。
该文介绍了一种新型基准——基于视觉问题回答的负面对象存在评估(NOPE),用于评估视觉语言模型中的对象幻觉问题。研究发现,所有模型在负面代词上的准确率都低于10%,且词汇多样性、大范围的问题类型和与场景相关的对象会增加视觉语言模型中对象幻觉的风险。
完成下面两步后,将自动完成登录并继续当前操作。