InternVideo2:面向多模态视频理解的视频基础模型的扩展
📝
内容提要
我们介绍 InternVideo2,这是一种新的视频基础模型(ViFM),在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式,统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上,我们通过对视频进行语义分割和生成视频 - 音频 -...
➡️