本文探讨了视觉语言模型(VLMs)在基础视觉线索关联能力上的表现,并提出了VLM²-Bench评测框架。研究发现,尽管VLMs在多图和视频处理上有所提升,但在视觉线索关联能力,尤其是人物识别任务中仍显不足。分析表明,语言和视觉中心的提示方法对模型性能有显著影响,并指出未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。