MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集
💡
原文中文,约1900字,阅读约需5分钟。
📝
内容提要
本文介绍了MMMU,一个新基准,用于评估多模态模型在大学级学科知识和跨学科任务上的表现。MMMU包含11500个多模态问题,涵盖六个核心学科,旨在挑战模型进行高级推理。评估结果显示,先进模型如GPT-4V的准确率仅为56%,表明仍有改进空间,MMMU旨在推动专家级人工智能的发展。
🎯
关键要点
-
MMMU是一个新的基准,评估多模态模型在大学级学科知识和跨学科任务上的表现。
-
MMMU包含11500个多模态问题,涵盖六个核心学科,包括艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。
-
这些问题涉及30个学科和183个子领域,挑战模型进行高级推理。
-
评估结果显示,先进模型如GPT-4V的准确率仅为56%,表明仍有改进空间。
-
MMMU旨在推动专家级人工智能的发展,促进下一代多模态基础模型的构建。
❓
延伸问答
MMMU基准的主要目的是什么?
MMMU基准旨在评估多模态模型在大学级学科知识和跨学科任务上的表现。
MMMU包含多少个多模态问题?
MMMU包含11500个多模态问题。
MMMU涵盖哪些核心学科?
MMMU涵盖艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学六个核心学科。
评估结果显示,先进模型的准确率是多少?
评估结果显示,先进模型如GPT-4V的准确率仅为56%。
MMMU如何推动人工智能的发展?
MMMU旨在推动专家级人工智能的发展,促进下一代多模态基础模型的构建。
MMMU与现有基准有何不同?
MMMU侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。
➡️