研究发现,视觉语言模型(VLMs)在回答问题时常常关注错误的图像区域。通过引入“答案驱动注意力”这一新指标,分析了多个流行的VLMs(如LLaVA、InstructBLIP和MiniGPT-4),并提出了提升模型性能的建议。
完成下面两步后,将自动完成登录并继续当前操作。