VideoEval: 视频基础模型低成本评估的综合基准套件

通过建立一个综合的基准测试套件来评估视频基础模型的任务适应能力和表示能力，研究发现当前视频基础模型在各种任务上具有弱的泛化能力，增加视频数据量不能必然提高任务性能，某些预训练范式的有效性可能没有完全得到之前基准测试的验证，结合不同预训练范式可以帮助提高泛化能力。

本文通过三种任务、八个数据集和四种适配方法评估了基础模型在视频理解方面的能力，并提出了一种衡量基础模型在适应视频理解任务时有效性和效率的VideoGLUE分数(VGS)。研究发现，专门任务模型在六个基础模型中表现出显著优势；视频模态的本机视频基础模型在分类富有动态的视频、时间定位动作和理解多个动作的视频方面通常表现更好；本机视频基础模型在轻微适配下可以在视频任务上表现良好，而图像本机基础模型则在全面端到端的微调中胜出。

任务基础模型数据集视频理解适配方法