本研究通过多语言比较,探讨了图像描述的具体性与众包工作者的熟悉程度之间的关系。构建了多文化视觉语言数据集MaRVL,发现不同语言模型在图像理解中的表现差异,强调了文化和语言对视觉任务的影响。此外,研究提出了新的基准数据集CUNIT,以评估大型语言模型在跨文化概念识别中的能力,揭示了其局限性和研究潜力。
完成下面两步后,将自动完成登录并继续当前操作。