小红花·文摘

本研究提出了CROPE，一个新的视觉问答基准，用于评估视觉和语言模型在文化知识和适应能力方面的表现。研究发现，现有模型在处理多模态信息和文化概念上有困难，显示了其在文化理解上的局限性。