小红花·文摘

这项研究发现视觉-语言模型在图像理解中存在西方偏见，通过对文化多样的图像进行评估，发现VLMs在西方子集上表现更好。控制实验强调了多样语言混合的重要性，使用目标文化语言进行提示可以减少偏见，但不能替代构建更具世界语言代表性的人工智能。