CLIP2Video是一种新的视频文本检索方法,通过将图像语言预训练模型转移到视频文本检索,提升了检索准确性。
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
CLIP2Video网络通过将图像语言预训练模型应用于视频文本检索,采用端到端方式,利用预训练的图像语言模型,通过Temporal Difference Block和Temporal Alignment Block提升多模态相关性。在MSR-VTT、MSVD和VATEX等基准上取得了最新的检索准确性记录。
完成下面两步后,将自动完成登录并继续当前操作。