MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题,涵盖六个核心学科和30个学科子领域。评估结果显示,即使是先进的GPT-4V也只能达到56%的准确率。MMMU有望推动下一代多模态基础模型的发展。

🎯

关键要点

  • MMMU是一个新的基准,用于评估多模态模型在跨学科任务上的表现。

  • MMMU包含11500个多模态问题,涵盖六个核心学科和30个学科子领域。

  • 这些问题包括多种图像类型,如图表、地图和化学结构。

  • MMMU侧重于使用领域特定知识进行高级感知和推理。

  • 评估显示,先进的GPT-4V仅能达到56%的准确率,表明改进空间巨大。

  • MMMU有望推动下一代多模态基础模型的发展。

➡️

继续阅读