本文提出了可扩展的组合图像检索(CoIR)任务,并扩展至组合视频检索(CoVR)。通过生成160万个三元组的WebVid-CoVR数据集,实验证明在该数据集上训练的CoVR模型能有效提升检索性能。研究还展示了如何利用多模态信息和新型模型提高视频检索的准确性和效率。
完成下面两步后,将自动完成登录并继续当前操作。