小红花·文摘

本研究评估了视觉语言模型（VLMs）在链接匹配视觉线索的能力，提出了VLM$^2$-Bench基准和9个子任务。研究发现现有模型表现不佳，GPT-4o的表现比人类低34.80%。呼吁增强模型的视觉能力以改善适应性。