Mitigating Object Hallucination in Multimodal Large Language Models through Multi-Frequency Perturbation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。该方法通过干扰视觉特征表示,显著减少幻觉现象,并在CHAIR基准测试中取得优异成绩。
🎯
关键要点
- 本研究提出了一种多频扰动(MFP)方法,旨在解决多模态大语言模型在视觉语言任务中的物体幻觉问题。
- MFP方法通过干扰视觉特征表示,显著减少幻觉现象。
- 该方法利用图像的低频和高频特征,抑制冗余频域特征。
- 实验结果表明,MFP方法在不同模型架构中均显著降低了物体幻觉。
- 在CHAIR基准测试中,该方法实现了领先性能。
➡️