MoVQA:一项用于长篇电影理解的多功能问答基准
📝
内容提要
为了解决当前长篇视频理解数据集的局限性,研究引入了 MoVQA 数据集和基准评估,以评估多模态系统对多级时间长度的多样化认知能力,同时设计了从观影者角度出发的多模态问答来评估模型在感知和认知多个方面的能力。经过分析,各种方法在处理视频和线索长度不断增加时性能显著下降,基准方法有所改进,但在挑战性的 MoVQA 数据集上仍有充分的提升空间。预计 MoVQA...
➡️