Video Multimodal Knowledge Acquisition Assessment: A Study from Multidisciplinary Expert Videos

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了视频多模态知识获取评估(Video-MMMU)基准,通过300个视频和900个问题评估大规模多模态模型的知识获取能力。结果表明,随着认知需求的增加,模型表现显著下降,强调了提升模型学习和适应能力的必要性。

🎯

关键要点

  • 本研究提出视频多模态知识获取评估(Video-MMMU)基准。
  • 基准通过300个专家级视频和900个人工标注问题评估大规模多模态模型的知识获取能力。
  • 引入新指标{}knowledge来量化知识提升。
  • 评估结果显示,随着认知需求的增加,模型表现显著下降。
  • 揭示了人类与模型之间在知识获取方面的显著差距。
  • 强调了提升大规模多模态模型学习和适应能力的必要性。
➡️

继续阅读