本文评估了多模态大型语言模型(MLLMs)在低层视觉感知和理解方面的能力,发现其基本技能不稳定且不精确。通过多个基准测试,尤其是针对中国高考的GAOKAO-MM,模型的准确率普遍低于50%。研究还揭示了视觉-语言模型(VLMs)在文化理解方面的西方偏见,并提出了改进建议。
这项研究探讨了视觉-语言模型(VLMs)在图像理解中的西方偏见,发现其在多样文化图像任务中的表现不均。提出了校准和去偏抽样策略以减轻偏见,并强调构建公平模型的重要性。研究还展示了VLMs在视觉任务中的优势与局限,提出了未来研究方向。
完成下面两步后,将自动完成登录并继续当前操作。