BriefGPT - AI 论文速递 ·

MMDU：多轮多图像对话理解基准及用于 LVLM 的指令调优数据集

💡 原文中文，约1900字，阅读约需5分钟。

📝

内容提要

本文介绍了MMMU，一个新基准，用于评估多模态模型在大学级学科知识和跨学科任务上的表现。MMMU包含11500个多模态问题，涵盖六个核心学科，旨在挑战模型进行高级推理。评估结果显示，先进模型如GPT-4V的准确率仅为56%，表明仍有改进空间，MMMU旨在推动专家级人工智能的发展。

🎯

关键要点

MMMU是一个新的基准，评估多模态模型在大学级学科知识和跨学科任务上的表现。
MMMU包含11500个多模态问题，涵盖六个核心学科，包括艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。
这些问题涉及30个学科和183个子领域，挑战模型进行高级推理。
评估结果显示，先进模型如GPT-4V的准确率仅为56%，表明仍有改进空间。
MMMU旨在推动专家级人工智能的发展，促进下一代多模态基础模型的构建。

❓

延伸问答

MMMU基准的主要目的是什么？

MMMU基准旨在评估多模态模型在大学级学科知识和跨学科任务上的表现。

MMMU包含多少个多模态问题？

MMMU包含11500个多模态问题。

MMMU涵盖哪些核心学科？

MMMU涵盖艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学六个核心学科。

评估结果显示，先进模型的准确率是多少？

评估结果显示，先进模型如GPT-4V的准确率仅为56%。

MMMU如何推动人工智能的发展？

MMMU旨在推动专家级人工智能的发展，促进下一代多模态基础模型的构建。

MMMU与现有基准有何不同？

MMMU侧重于使用领域特定知识进行高级感知和推理，挑战模型执行类似于专家面临的任务。

🏷️

标签

MMMU 人工智能多模态模型学科知识数据集跨学科任务

➡️

继续阅读

各国如何部署人工智能以满足战略优先事项
各国正在利用基础设施和数据发展人工智能（AI），以满足国家战略需求。AI推动经济增长、国家安全和文化保护。国家AI战略包括本地AI能力、人才培养、模型和数...
深入创作者经济的大生意，揭示推动其发展的代理人
本文讨论了创作者经济的现状，特别是美国人才代理公司UTA的创作者部门如何帮助创作者建立可持续的商业模式。Ali Berman和Raina Penchans...
微软裁员4800人
微软宣布裁员4800人，占员工总数的约2.1%。裁员主要集中在Xbox和商业销售部门，因应技术行业变化和人工智能影响。微软还计划出售四个Xbox工作室，并...
人工智能代理工具选择完全指南
本文探讨了在人工智能代理中选择工具的六种有效技术，包括门控、检索、路由、规划、后备逻辑和基准测试。这些方法的组合可以提高工具选择的准确性和效率，减少工具幻...
SRE的四体问题：为何自主运维依赖于上下文
文章讨论了人工智能在运维中的挑战，特别是信任和上下文问题。运维决策需要整合代码、基础设施状态、运行时信号和操作知识。许多组织在自动化操作中仍处于初级阶段，...
2026新青年创投大会在沪举行：00后登场，创投新周期开启
2026新青年创投大会于7月3日在上海举行，聚焦青年创业者与投资人的成长。大会强调人工智能和生物医药等新兴领域为青年提供发展机遇。数据显示，90后已成为创...