本文介绍了CLIP2Video网络在视频文本检索中的应用,利用预训练的图像语言模型,通过两个阶段的框架提升多模态相关性。研究提出的新方法和模型如WAVER和TOPA,在多个数据集上表现优异,提升了文本到视频检索的效率与准确性。
完成下面两步后,将自动完成登录并继续当前操作。