小红花·文摘

本文评估了多模态大型语言模型（MLLMs）在低层视觉感知和理解方面的能力，发现其基本技能不稳定且不精确。通过多个基准测试，尤其是针对中国高考的GAOKAO-MM，模型的准确率普遍低于50%。研究还揭示了视觉-语言模型（VLMs）在文化理解方面的西方偏见，并提出了改进建议。

BriefGPT - AI 论文速递 ·

这项研究探讨了视觉-语言模型（VLMs）在图像理解中的西方偏见，发现其在多样文化图像任务中的表现不均。提出了校准和去偏抽样策略以减轻偏见，并强调构建公平模型的重要性。研究还展示了VLMs在视觉任务中的优势与局限，提出了未来研究方向。

BriefGPT - AI 论文速递 ·