研究者通过自动数据集创建方法提出了可扩展的Composed Image Retrieval(CoIR)和Composed Video Retrieval(CoVR)任务。他们构建了包含1.6百万个三元组的WebVid-CoVR数据集,通过挖掘具有相似标题的配对视频并生成修改文本。实验证明,在该数据集上训练的CoVR模型可以迁移到CoIR,并提高了CIRR和FashionIQ基准测试的性能。
完成下面两步后,将自动完成登录并继续当前操作。