文本增强的零样本动作识别：一种无训练的方法

本研究针对零样本视频动作识别（ZSVAR）中的关键问题，提出了一种名为文本增强动作识别（TEAR）的简单无训练方法。该方法利用动作描述符和上下文信息增强零样本动作识别的效果，实验证明其在UCF101、HMDB51和Kinetics-600数据集上表现出色，有望在资源有限的情况下改善该领域的研究。

本研究介绍了Open-VCLIP++，通过修改CLIP来捕捉视频时空关系，创建视频分类器，追求泛化性。利用权重插值的优势，训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估，超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现了88.1%、58.7%和81.2%的零样本准确率，比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平，使用更少的微调数据。

Open-VCLIP++ 动作识别泛化性视频时空关系零样本准确率