小红花·文摘

本文研究了多模态大语言模型中的视觉-知识冲突，提出自动化流程来评估这些冲突。研究发现模型过于依赖文本，通过“关注视觉”策略（FoV），显著提升了模型处理视觉数据的能力。