通过解读注意力因果关系减轻多模态大语言模型中的模态优先引起的幻觉
原文中文,约500字,阅读约需1分钟。发表于: 。本研究针对多模态大语言模型中存在的因视觉和语言优先引起的偏见问题,提出了一种新的因果推断框架CausalMM。通过在视觉和语言注意力层进行后门调整和反事实推理,我们的方法在优化模型输入与输出的对齐性方面实现了显著提升,最大提高6个VLind-Bench指标65.3%的得分,表明其在减轻模态优先影响中的有效性。
大型视觉语言模型在语言理解中表现优异,但存在多模态幻觉问题。研究发现,段落分隔符号(' ')引发语义偏差是幻觉的关键。模型倾向于认为' '后的内容与之前不同,导致幻觉增加。通过在描述中插入' '验证了这一现象。提出的方法是跳过输出中的' '以减轻幻觉。