小红花·文摘

本文构建了GD-VCR数据集，以测试视觉-语言模型对文化和地理常识的理解能力。研究发现，模型在非西方地区表现较差，尤其在理解印度尼西亚文化细微差别方面落后于人类。提出通过众包知识引入文化差异的方法，以提升NLP任务性能，并开发了多语言视觉和语言推理的数据集MaRVL，发现跨语言性能滞后于英语。