开放词汇多标签视频分类
📝
内容提要
通过对开放词汇视频进行无序多标签分类及语义引导的研究,提出了一种利用预训练视觉语言模型来解决视频理解问题的方法,结合时序建模模块和创新的细调技术,实现了在多个基准数据集上极好的开放词汇分类性能。
➡️
通过对开放词汇视频进行无序多标签分类及语义引导的研究,提出了一种利用预训练视觉语言模型来解决视频理解问题的方法,结合时序建模模块和创新的细调技术,实现了在多个基准数据集上极好的开放词汇分类性能。