小红花·文摘

本文介绍了MMMU，一个新基准，用于评估多模态模型在大学级学科知识和跨学科任务上的表现。MMMU包含11500个多模态问题，涵盖六个核心学科，旨在挑战模型进行高级推理。评估结果显示，先进模型如GPT-4V的准确率仅为56%，表明仍有改进空间，MMMU旨在推动专家级人工智能的发展。