EZ-CLIP:高效零样本视频行为识别
原文中文,约500字,阅读约需2分钟。发表于: 。EZ-CLIP 是对 CLIP 的简单高效改进,通过引入时序视觉提示和新的学习目标,实现了在视频领域的零样本学习和基于视频动作识别的高效训练。
Open-VCLIP++是一个简单而有效的框架,用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习,并生成细粒度的视频描述。在三个动作识别数据集上评估时,Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上,它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上,它的检索性能达到了竞争水平,并且使用了更少的微调数据。