小红花·文摘

本研究通过多语言比较，探讨了图像描述的具体性与众包工作者的熟悉程度之间的关系。构建了多文化视觉语言数据集MaRVL，发现不同语言模型在图像理解中的表现差异，强调了文化和语言对视觉任务的影响。此外，研究提出了新的基准数据集CUNIT，以评估大型语言模型在跨文化概念识别中的能力，揭示了其局限性和研究潜力。