CoVR:从网络视频字幕中学习组合视频检索
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
研究者通过自动数据集创建方法提出了可扩展的Composed Image Retrieval(CoIR)和Composed Video Retrieval(CoVR)任务。他们构建了包含1.6百万个三元组的WebVid-CoVR数据集,通过挖掘具有相似标题的配对视频并生成修改文本。实验证明,在该数据集上训练的CoVR模型可以迁移到CoIR,并提高了CIRR和FashionIQ基准测试的性能。
🎯
关键要点
- 研究者提出了可扩展的Composed Image Retrieval(CoIR)和Composed Video Retrieval(CoVR)任务。
- 构建了包含1.6百万个三元组的WebVid-CoVR数据集。
- 通过挖掘具有相似标题的配对视频并生成修改文本来创建数据集。
- 实验证明CoVR模型在WebVid-CoVR数据集上训练后可以迁移到CoIR。
- CoVR模型提高了CIRR和FashionIQ基准测试的性能。
➡️