本研究探讨视觉语言模型(VLMs)在回答实体描述问题时,文本与图像信息的性能差距,准确率下降19%。我们指出图像到查询标记的信息流动存在局限,影响模型推理能力,揭示了VLMs内部机制的效率问题。
完成下面两步后,将自动完成登录并继续当前操作。