机器之心 ·

AI能从视频中学习吗?NTU S-Lab团队首个视频知识获取能力评测基准

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

新加坡南洋理工大学推出Video-MMMU数据集，评估多模态大模型（LMMs）从视频中获取知识的能力。该数据集关注模型在感知、理解和运用三个认知阶段的表现，揭示了LMMs在学习效率和知识迁移方面的不足，为提升AI学习能力提供新视角。

🎯

🔎

Video-MMMU数据集揭示了多模态大模型在知识获取中的显著不足，尤其是在知识应用阶段，模型得分普遍低于50%。这表明，尽管模型能够从视频中提取信息，但在实际应用中仍面临较大挑战，难以灵活迁移所学知识。

Video-MMMU引入的知识增益（∆knowledge）指标，强调了模型在观看视频前后能力的提升。这一创新评估方法不仅关注模型的解题能力，更关注其学习新知识的能力，反映出模型在知识获取过程中的真实表现。

实验结果显示，人类在知识增益方面的表现远超模型，尤其是在错误转正确率和正确转错误率的平衡上。人类能够更有效地整合新旧知识，而模型在处理视频信息时常常会修改原本正确的答案，这突显了当前AI学习能力的局限性。

❓

Video-MMMU数据集旨在评估多模态大模型从视频中获取知识的能力，关注模型在感知、理解和运用三个认知阶段的表现。

数据集包含300个大学水平的教育视频和900个高质量的问答对，覆盖多个学科领域。

模型在运用阶段的得分普遍低于50%，显示出知识应用的挑战，尤其在灵活迁移和运用所学内容方面存在明显短板。

知识增益指标用于评估模型通过观看视频学习新知识的能力，关注模型在观看视频前后的表现提升。

Video-MMMU通过分析模型在感知、理解和运用阶段的表现，以及知识增益和错误转正确率等指标来评估学习能力。

实验显示人类在观看视频后的知识增益达33.1%，而表现最好的模型仅为15.6%，表明人类的学习能力远超模型。

🏷️