Video Multimodal Knowledge Acquisition Assessment: A Study from Multidisciplinary Expert Videos
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了视频多模态知识获取评估(Video-MMMU)基准,通过300个视频和900个问题评估大规模多模态模型的知识获取能力。结果表明,随着认知需求的增加,模型表现显著下降,强调了提升模型学习和适应能力的必要性。
🎯
关键要点
- 本研究提出视频多模态知识获取评估(Video-MMMU)基准。
- 基准通过300个专家级视频和900个人工标注问题评估大规模多模态模型的知识获取能力。
- 引入新指标{}knowledge来量化知识提升。
- 评估结果显示,随着认知需求的增加,模型表现显著下降。
- 揭示了人类与模型之间在知识获取方面的显著差距。
- 强调了提升大规模多模态模型学习和适应能力的必要性。
➡️