OmniCLIP:利用空间-时间全尺度特征学习适应CLIP进行视频识别
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本研究介绍了Open-VCLIP++,通过修改CLIP来捕捉视频的时空关系,创建视频分类器,并利用权重插值实现持续学习。结果在动作识别和视频文本检索数据集上超过最先进技术。
🎯
关键要点
- 本研究介绍了Open-VCLIP++,通过最小化修改CLIP捕捉视频的时空关系。
- Open-VCLIP++创建了一个专门的视频分类器,追求泛化性。
- 利用权重插值实现持续学习,训练Open-VCLIP++等同于零历史数据。
- 使用大型语言模型生成细粒度的视频描述,并与视频特征对齐。
- 在UCF、HMDB和Kinetics-600数据集上实现了88.1%、58.7%和81.2%的零样本准确率,超过现有最先进技术。
- 在MSR-VTT视频文本检索数据集上,方法在视频到文本和文本到视频的检索性能上达到了竞争水平,且使用了更少的微调数据。
➡️