小红花·文摘

本文介绍了CLIP2Video网络在视频文本检索中的应用，利用预训练的图像语言模型，通过两个阶段的框架提升多模态相关性。研究提出的新方法和模型如WAVER和TOPA，在多个数据集上表现优异，提升了文本到视频检索的效率与准确性。