MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题,涵盖六个核心学科和30个学科子领域。评估结果显示,即使是先进的GPT-4V也只能达到56%的准确率。MMMU有望推动下一代多模态基础模型的发展。
🎯
关键要点
-
MMMU是一个新的基准,用于评估多模态模型在跨学科任务上的表现。
-
MMMU包含11500个多模态问题,涵盖六个核心学科和30个学科子领域。
-
这些问题包括多种图像类型,如图表、地图和化学结构。
-
MMMU侧重于使用领域特定知识进行高级感知和推理。
-
评估显示,先进的GPT-4V仅能达到56%的准确率,表明改进空间巨大。
-
MMMU有望推动下一代多模态基础模型的发展。
➡️