开放词汇多标签视频分类

📝

内容提要

通过对开放词汇视频进行无序多标签分类及语义引导的研究,提出了一种利用预训练视觉语言模型来解决视频理解问题的方法,结合时序建模模块和创新的细调技术,实现了在多个基准数据集上极好的开放词汇分类性能。

➡️

继续阅读