Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示,显著减少幻觉现象,并在CHAIR基准测试中取得优异成绩。

🎯

关键要点

  • 本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。
  • MFP方法通过干扰视觉特征表示,显著减少幻觉现象。
  • 该方法利用图像的低频和高频特征,抑制冗余频域特征。
  • 实验结果表明,MFP方法在不同模型架构中均显著降低了物体幻觉。
  • 在CHAIR基准测试中,该方法实现了领先性能。
➡️

继续阅读