EZ-CLIP:高效零样本视频行为识别
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习,并生成细粒度的视频描述。在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上,它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上,它的检索性能达到了竞争水平,并且使用了更少的微调数据。
🎯
关键要点
- Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。
- Open-VCLIP++可以进行持续学习,并生成细粒度的视频描述。
- 在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。
- 在UCF、HMDB和Kinetics-600数据集上,Open-VCLIP++的零样本准确率分别为88.1%、58.7%和81.2%。
- Open-VCLIP++在MSR-VTT视频文本检索数据集上的检索性能达到了竞争水平,并且使用了更少的微调数据。
➡️