小红花·文摘

本研究探讨视觉语言模型（VLMs）在回答实体描述问题时，文本与图像信息的性能差距，准确率下降19%。我们指出图像到查询标记的信息流动存在局限，影响模型推理能力，揭示了VLMs内部机制的效率问题。