小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种黑箱视觉提示工程（BBVPE）框架，旨在解决大型视觉语言模型中的物体幻觉问题，从而显著提升模型的可靠性和应用潜力。

Black Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种多频扰动（MFP）方法，旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示，显著减少幻觉现象，并在CHAIR基准测试中取得优异成绩。

Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

BriefGPT - AI 论文速递 ·

本研究提出了一种视觉放大融合（VAF）方法，旨在解决多模态大型语言模型中的物体幻觉问题。实验结果表明，VAF有效降低了幻觉的发生，同时保持了生成内容的连贯性和准确性。

ClearSight: Enhancing Visual Signals to Mitigate Object Hallucinations in Multimodal Large Language Models

BriefGPT - AI 论文速递 ·

本文探讨了大规模视觉语言模型（LVLMs）中的物体幻觉问题，并提出了视觉对比解码（VCD）、指令对比解码（ICD）和自我反思解码（SID）等新方法。这些方法通过增强视觉与文本之间的联系，提高了生成内容的准确性和质量，减少了幻觉现象，推动了多模态模型的实际应用。

通过摘要引导解码减轻大型视觉-语言模型中的幻觉现象

BriefGPT - AI 论文速递 ·

本论文研究了大型视觉语言模型中的物体幻觉问题，提出了视觉对比解码和指令对比解码等改进方法，有效减轻幻觉现象并提升模型性能。同时，分析了幻觉的根本原因，并提出了新的评估基准，推动未来研究方向。

从像素到标记：重新审视大规模视觉语言模型中的对象幻觉

BriefGPT - AI 论文速递 ·

大视觉语言模型（LVLMs）在生成与视觉输入相关内容时常出现物体幻觉问题。本文提出了一种名为视觉对比解码（VCD）的方法，通过对比原始和失真的视觉输入，显著降低幻觉影响，确保生成内容的准确性。实验表明，VCD无需额外训练，能有效改善LVLM的性能和可靠性。

ConVis：对比解码与幻觉可视化以减轻多模态大型语言模型中的幻觉

BriefGPT - AI 论文速递 ·