生成多模态模型是上下文学习耠
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题,涵盖六个核心学科和30个学科和183个子领域。MMMU侧重于使用领域特定知识进行高级感知和推理,对14个开源LMM和专有的GPT-4V进行了评估。结果显示,即使是先进的GPT-4V也只能达到56%的准确率。MMMU将推动构建面向专家人工通用智能的下一代多模态基础模型。
🎯
关键要点
- MMMU是一个新的基准,用于评估多模态模型在跨学科任务上的表现。
- MMMU包含11500个多模态问题,涵盖六个核心学科和183个子领域。
- 这些问题涉及30种不同类型的图像,如图表、地图和化学结构。
- MMMU侧重于使用领域特定知识进行高级感知和推理。
- 对14个开源LMM和GPT-4V的评估显示,GPT-4V的准确率仅为56%。
- MMMU将推动构建面向专家的下一代多模态基础模型。
➡️