JMMMU:一个针对文化意识评估的日本大型多学科多模态理解基准
内容提要
该论文评估了大型语言模型(LLMs)在多语言和多模态任务中的表现,发现现有模型在复杂问题上的准确率普遍低于50%,尤其在文化知识和跨语言理解方面有显著改进空间。新提出的评估工具和数据集旨在推动模型的发展和研究。
关键要点
-
该论文介绍了M3Exam基准测试,评估大型语言模型在多语言和多模态任务中的表现。
-
当前模型在低资源和非拉丁语文本方面表现不佳,尤其在复杂多模态问题上。
-
通过评估18种多语言和中文LLMs,发现大多数模型的平均准确率低于50%。
-
提出了CulText2I数据集,探索模型的文化意识和跨文化应用潜力。
-
构建了ChEF评估框架,标准化评估多模态大语言模型的能力和限制。
-
CMMMU基准旨在评估大型多模态模型在中国语境中的表现,推动下一代LMMs的发展。
-
GAOKAO-MM基准评估了10个大型视觉语言模型,发现它们的准确率均低于50%。
-
引入了Heron-Bench基准测试集,评估日语VLMs的能力,揭示了强封闭模型与基准模型之间的能力差距。
-
M4U基准测试发现领先模型在跨语言多模态问题上表现显著降低,平均准确率仅为47.6%。
-
提出了MMEvalPro基准测试,改进了多模态模型在视觉问题中的评估可靠性。
-
研究提出了CulturalBench评估工具,发现模型在南美和中东问题上的表现普遍不佳。
延伸问答
M3Exam基准测试的主要特点是什么?
M3Exam基准测试具有多语言、多模态和多级结构的特点,旨在全面评估大型语言模型的表现。
当前大型语言模型在复杂多模态问题上的表现如何?
当前大型语言模型在复杂多模态问题上的准确率普遍低于50%,显示出显著的改进空间。
CulText2I数据集的目的是什么?
CulText2I数据集旨在探索模型的文化意识和跨文化应用潜力。
GAOKAO-MM基准测试评估了哪些模型?
GAOKAO-MM基准测试评估了10个大型视觉语言模型,发现它们的准确率均低于50%。
CulturalBench评估工具的发现是什么?
CulturalBench评估工具发现,尽管某些模型在特定区域表现良好,但在南美和中东的问题上普遍表现不佳。
M4U基准测试的主要发现是什么?
M4U基准测试发现领先模型在跨语言多模态问题上的平均准确率仅为47.6%,表现显著降低。