FROSTER:冷冻 CLIP 是开放词汇动作识别的强大教师
原文中文,约500字,阅读约需2分钟。发表于: 。FROSTER 是一个有效的开放词汇动作识别框架,通过使用残差特征蒸馏方法,能够确保 CLIP 保持其泛化能力,并有效适应于动作识别任务,从而在开放词汇动作识别基准数据集上实现了最先进的性能。
本研究介绍了Open-VCLIP++框架,通过修改CLIP捕捉视频时空关系,创建视频分类器,追求泛化性。利用权重插值的优势,训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估,超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率,比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平,使用更少的微调数据。