本研究提出了CROPE,一个新的视觉问答基准,用于评估视觉和语言模型在文化知识和适应能力方面的表现。研究发现,现有模型在处理多模态信息和文化概念上有困难,显示了其在文化理解上的局限性。
完成下面两步后,将自动完成登录并继续当前操作。