COVR是一个用于基于真实图像的组合通用化的新测试平台。它使用场景图注释的实际图像和生成问题答案的过程来创建相关的场景图像集。COVR可以在测试时间零或少量训练数据的情况下进行新概念和组合的通用化。使用COVR构建的组合划分展示了许多情况,其中最先进的预训练语言和视觉模型难以进行组合通用化。
研究者通过自动数据集创建方法提出了可扩展的Composed Image Retrieval(CoIR)和Composed Video Retrieval(CoVR)任务。他们构建了包含1.6百万个三元组的WebVid-CoVR数据集,通过挖掘具有相似标题的配对视频并生成修改文本。实验证明,在该数据集上训练的CoVR模型可以迁移到CoIR,并提高了CIRR和FashionIQ基准测试的性能。
完成下面两步后,将自动完成登录并继续当前操作。