小红花·文摘

本研究介绍了Open-VCLIP++，通过修改CLIP来捕捉视频的时空关系，创建视频分类器，并利用权重插值实现持续学习。结果在动作识别和视频文本检索数据集上超过最先进技术。

OmniCLIP：利用空间-时间全尺度特征学习适应CLIP进行视频识别

BriefGPT - AI 论文速递 ·

本研究介绍了Open-VCLIP++框架，通过修改CLIP捕捉视频时空关系，创建视频分类器，追求泛化性。利用权重插值的优势，训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估，超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率，比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平，使用更少的微调数据。

FROSTER：冷冻 CLIP 是开放词汇动作识别的强大教师

BriefGPT - AI 论文速递 ·

Open-VCLIP++是一个简单而有效的框架，用于捕捉视频中的时空关系并创建视频分类器。它可以进行持续学习，并生成细粒度的视频描述。在三个动作识别数据集上评估时，Open-VCLIP++的准确率超过了最先进技术。在UCF、HMDB和Kinetics-600数据集上，它的零样本准确率分别为88.1%、58.7%和81.2%。在MSR-VTT视频文本检索数据集上，它的检索性能达到了竞争水平，并且使用了更少的微调数据。

EZ-CLIP：高效零样本视频行为识别

BriefGPT - AI 论文速递 ·