本研究介绍了Open-VCLIP++,通过修改CLIP来捕捉视频的时空关系,创建视频分类器,并利用权重插值实现持续学习。结果在动作识别和视频文本检索数据集上超过最先进技术。
本研究介绍了Open-VCLIP++框架,通过修改CLIP捕捉视频时空关系,创建视频分类器,追求泛化性。利用权重插值的优势,训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估,超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率,比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平,使用更少的微调数据。
Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习,并生成细粒度的视频描述。在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上,它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上,它的检索性能达到了竞争水平,并且使用了更少的微调数据。
完成下面两步后,将自动完成登录并继续当前操作。