CVQA:跨文化多语言视觉问答基准
原文中文,约300字,阅读约需1分钟。发表于: 。构建了 CVQA,一个新的多元文化多语言视觉问答基准,覆盖了 28 个国家的文化驱动图像和问题,包括 26 种语言和 11 种文字,共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试,显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件,并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。
研究人员构建了CVQA,一个多元文化多语言视觉问答基准,覆盖了28个国家的文化驱动图像和问题,包括26种语言和11种文字,共提供了9k个问题。基准测试显示该数据集对当前最先进的模型具有挑战性,可评估多模态模型的文化能力和偏见,鼓励增加文化意识和语言多样性的研究。