从我的视角看:对大型视觉 - 语言模型在图片理解中的西方文化偏见进行诊断
原文中文,约500字,阅读约需2分钟。发表于: 。视觉 - 语言模型(VLMs)可以通过多种语言回答有关图像的问题。然而,除了语言,文化也影响我们的观察方式。在这项研究中,我们展示了一项新颖的调查,证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估,我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs...
本研究提出了两种简单且无需训练的策略来减轻大型视觉-语言模型(LVLMs)生成内容的偏见,并提高性能。一种是通过仿射变换进行校准来调整输出分布,适用于分类或多项选择问题回答等任务。另一种是将校准方法扩展为去偏抽样,适用于开放式生成任务。实验证明这些策略有效减轻偏见。