BriefGPT - AI 论文速递 ·

FROSTER：冷冻 CLIP 是开放词汇动作识别的强大教师

💡 原文中文，约500字，阅读约需2分钟。

📝

内容提要

本研究介绍了Open-VCLIP++框架，通过修改CLIP捕捉视频时空关系，创建视频分类器，追求泛化性。利用权重插值的优势，训练Open-VCLIP++等同于零历史数据的持续学习。在动作识别数据集上评估，超过现有技术水平。在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率，比最佳替代方法高出8.5%、8.2%和12.3%。在MSR-VTT视频文本检索数据集上达到竞争水平，使用更少的微调数据。

🎯

关键要点

本研究介绍了Open-VCLIP++框架，通过最小化修改CLIP捕捉视频时空关系，创建视频分类器。
Open-VCLIP++利用权重插值的优势，实现零历史数据的持续学习。
在三个动作识别数据集上评估，Open-VCLIP++超过现有技术水平。
在UCF、HMDB和Kinetics-600数据集上分别实现88.1%、58.7%和81.2%的零样本准确率，分别比最佳替代方法高出8.5%、8.2%和12.3%。
在MSR-VTT视频文本检索数据集上，Open-VCLIP++在视频到文本和文本到视频的检索性能上达到了竞争水平，使用了更少的微调数据。

🏷️

FROSTER：冷冻 CLIP 是开放词汇动作识别的强大教师

内容提要

关键要点

标签

继续阅读