EZ-CLIP:高效零样本视频行为识别

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习,并生成细粒度的视频描述。在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上,它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上,它的检索性能达到了竞争水平,并且使用了更少的微调数据。

🎯

关键要点

  • Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。
  • Open-VCLIP++可以进行持续学习,并生成细粒度的视频描述。
  • 在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。
  • 在UCF、HMDB和Kinetics-600数据集上,Open-VCLIP++的零样本准确率分别为88.1%、58.7%和81.2%。
  • Open-VCLIP++在MSR-VTT视频文本检索数据集上的检索性能达到了竞争水平,并且使用了更少的微调数据。
➡️

继续阅读