本文研究了多模态大语言模型中的视觉-知识冲突,提出自动化流程来评估这些冲突。研究发现模型过于依赖文本,通过“关注视觉”策略(FoV),显著提升了模型处理视觉数据的能力。
完成下面两步后,将自动完成登录并继续当前操作。