AI能从视频中学习吗?NTU S-Lab团队首个视频知识获取能力评测基准

AI能从视频中学习吗?NTU S-Lab团队首个视频知识获取能力评测基准

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

新加坡南洋理工大学推出Video-MMMU数据集,评估多模态大模型(LMMs)从视频中获取知识的能力。该数据集关注模型在感知、理解和运用三个认知阶段的表现,揭示了LMMs在学习效率和知识迁移方面的不足,为提升AI学习能力提供新视角。

🎯

关键要点

  • 新加坡南洋理工大学推出Video-MMMU数据集,评估多模态大模型从视频中获取知识的能力。
  • Video-MMMU关注模型在感知、理解和运用三个认知阶段的表现。
  • 该数据集揭示了LMMs在学习效率和知识迁移方面的不足。
  • Video-MMMU将学习新知识拆解为三个认知阶段:感知、理解和运用。
  • 知识增益(∆knowledge)指标用于评估模型通过观看视频学习新知识的能力。
  • Video-MMMU专注于高质量教育视频,覆盖多个学科领域。
  • 数据集包含300个大学水平的教育视频和900个高质量的问答对。
  • 实验结果显示人类在所有阶段的表现优于模型,尤其在运用阶段。
  • 模型在运用阶段的得分普遍低于50%,显示出知识应用的挑战。
  • 知识增益的定量分析显示人类的学习能力远超模型。
  • 模型在处理视频信息时,往往会修改原本正确的答案,成为其学习能力的短板。
  • Video-MMMU首次系统性评测了LMMs从视频中学习、理解和应用知识的能力。

延伸问答

Video-MMMU数据集的主要目的是什么?

Video-MMMU数据集旨在评估多模态大模型从视频中获取知识的能力,关注模型在感知、理解和运用三个认知阶段的表现。

Video-MMMU数据集包含哪些内容?

数据集包含300个大学水平的教育视频和900个高质量的问答对,覆盖多个学科领域。

多模态大模型在运用阶段的表现如何?

模型在运用阶段的得分普遍低于50%,显示出知识应用的挑战,尤其在灵活迁移和运用所学内容方面存在明显短板。

知识增益(∆knowledge)指标的意义是什么?

知识增益指标用于评估模型通过观看视频学习新知识的能力,关注模型在观看视频前后的表现提升。

Video-MMMU如何评估模型的学习能力?

Video-MMMU通过分析模型在感知、理解和运用阶段的表现,以及知识增益和错误转正确率等指标来评估学习能力。

人类与模型在知识获取方面的差距如何?

实验显示人类在观看视频后的知识增益达33.1%,而表现最好的模型仅为15.6%,表明人类的学习能力远超模型。

➡️

继续阅读