本研究评估了视觉语言模型(VLMs)在链接匹配视觉线索的能力,提出了VLM$^2$-Bench基准和9个子任务。研究发现现有模型表现不佳,GPT-4o的表现比人类低34.80%。呼吁增强模型的视觉能力以改善适应性。
完成下面两步后,将自动完成登录并继续当前操作。