本文构建了GD-VCR数据集,以测试视觉-语言模型对文化和地理常识的理解能力。研究发现,模型在非西方地区表现较差,尤其在理解印度尼西亚文化细微差别方面落后于人类。提出通过众包知识引入文化差异的方法,以提升NLP任务性能,并开发了多语言视觉和语言推理的数据集MaRVL,发现跨语言性能滞后于英语。
完成下面两步后,将自动完成登录并继续当前操作。