文化视觉语言模型:对100多个国家文化理解的表征和改善

📝

内容提要

本研究探讨视觉语言模型在文化理解中的不足,尤其是由于主要以西方为中心的训练数据造成的偏差。我们构建了一个名为CultureVerse的大规模多模态基准,涵盖19682个文化概念和188个国家/地区,并提出了CultureVLM,通过在此数据集上进行微调显著提升文化理解能力,特别是在非西方文化中的表现。此项工作为建立更公平和具有文化意识的多模态人工智能系统奠定了基础。

🏷️

标签

➡️

继续阅读