文本增强的零样本动作识别:一种无训练的方法
原文中文,约500字,阅读约需1分钟。发表于: 。本研究针对零样本视频动作识别(ZSVAR)中的关键问题,提出了一种名为文本增强动作识别(TEAR)的简单无训练方法。该方法利用动作描述符和上下文信息增强零样本动作识别的效果,实验证明其在UCF101、HMDB51和Kinetics-600数据集上表现出色,有望在资源有限的情况下改善该领域的研究。
本研究介绍了Open-VCLIP++,通过修改CLIP来捕捉视频时空关系,创建视频分类器,追求泛化性。利用权重插值的优势,训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估,超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现了88.1%、58.7%和81.2%的零样本准确率,比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平,使用更少的微调数据。