世界美食:针对全球美食的多语言和多文化视觉问答的大规模基准
原文中文,约300字,阅读约需1分钟。发表于: 。本研究解决了视觉语言模型在非英语及文化背景不足的知识理解上的问题。我们提出了WorldCuisines,一个涵盖30种语言和方言的视觉问答基准,拥有超过100万个数据点,是迄今为止最大的多文化视觉问答基准。研究发现,虽然视觉语言模型在正确的地理上下文中表现更好,但在对抗上下文以及预测特定地区美食和语言方面表现不佳。
研究推出了CulturalVQA基准,用于评估视觉语言模型的地理文化理解能力。结果显示,GPT-4V和Gemini在北美文化理解较强,但在非洲较弱。它们在服饰、仪式和传统方面表现优于食物和饮品。这表明VLM在文化理解上存在不足,CulturalVQA具有评估潜力。