小红花·文摘

研究者通过自动数据集创建方法提出了可扩展的Composed Image Retrieval（CoIR）和Composed Video Retrieval（CoVR）任务。他们构建了包含1.6百万个三元组的WebVid-CoVR数据集，通过挖掘具有相似标题的配对视频并生成修改文本。实验证明，在该数据集上训练的CoVR模型可以迁移到CoIR，并提高了CIRR和FashionIQ基准测试的性能。