生成多模态模型是上下文学习耠

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

MMMU是一个新的基准,用于评估多模态模型在大规模跨学科任务上的表现。它包含11500个多模态问题,涵盖六个核心学科和30个学科和183个子领域。MMMU侧重于使用领域特定知识进行高级感知和推理,对14个开源LMM和专有的GPT-4V进行了评估。结果显示,即使是先进的GPT-4V也只能达到56%的准确率。MMMU将推动构建面向专家人工通用智能的下一代多模态基础模型。

🎯

关键要点

  • MMMU是一个新的基准,用于评估多模态模型在跨学科任务上的表现。
  • MMMU包含11500个多模态问题,涵盖六个核心学科和183个子领域。
  • 这些问题涉及30种不同类型的图像,如图表、地图和化学结构。
  • MMMU侧重于使用领域特定知识进行高级感知和推理。
  • 对14个开源LMM和GPT-4V的评估显示,GPT-4V的准确率仅为56%。
  • MMMU将推动构建面向专家的下一代多模态基础模型。
➡️

继续阅读