小红花·文摘

本研究探讨了视觉语言模型在复杂视觉推理中的挑战，特别是文本与视觉数据之间的差距。通过新基准DrivingVQA评估视觉链思维推理能力，发现现有模型在零样本设置下表现不佳，并提出基于相关实体的训练策略，提升推理效果可达7%。