MMDU:多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

本文介绍了MMMU,一个新基准,用于评估多模态模型在大学级学科知识和跨学科任务上的表现。MMMU包含11500个多模态问题,涵盖六个核心学科,旨在挑战模型进行高级推理。评估结果显示,先进模型如GPT-4V的准确率仅为56%,表明仍有改进空间,MMMU旨在推动专家级人工智能的发展。

🎯

关键要点

  • MMMU是一个新的基准,评估多模态模型在大学级学科知识和跨学科任务上的表现。

  • MMMU包含11500个多模态问题,涵盖六个核心学科,包括艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。

  • 这些问题涉及30个学科和183个子领域,挑战模型进行高级推理。

  • 评估结果显示,先进模型如GPT-4V的准确率仅为56%,表明仍有改进空间。

  • MMMU旨在推动专家级人工智能的发展,促进下一代多模态基础模型的构建。

延伸问答

MMMU基准的主要目的是什么?

MMMU基准旨在评估多模态模型在大学级学科知识和跨学科任务上的表现。

MMMU包含多少个多模态问题?

MMMU包含11500个多模态问题。

MMMU涵盖哪些核心学科?

MMMU涵盖艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学六个核心学科。

评估结果显示,先进模型的准确率是多少?

评估结果显示,先进模型如GPT-4V的准确率仅为56%。

MMMU如何推动人工智能的发展?

MMMU旨在推动专家级人工智能的发展,促进下一代多模态基础模型的构建。

MMMU与现有基准有何不同?

MMMU侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。

➡️

继续阅读