CoVR:从网络视频字幕中学习组合视频检索

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

研究者通过自动数据集创建方法提出了可扩展的Composed Image Retrieval(CoIR)和Composed Video Retrieval(CoVR)任务。他们构建了包含1.6百万个三元组的WebVid-CoVR数据集,通过挖掘具有相似标题的配对视频并生成修改文本。实验证明,在该数据集上训练的CoVR模型可以迁移到CoIR,并提高了CIRR和FashionIQ基准测试的性能。

🎯

关键要点

  • 研究者提出了可扩展的Composed Image Retrieval(CoIR)和Composed Video Retrieval(CoVR)任务。
  • 构建了包含1.6百万个三元组的WebVid-CoVR数据集。
  • 通过挖掘具有相似标题的配对视频并生成修改文本来创建数据集。
  • 实验证明CoVR模型在WebVid-CoVR数据集上训练后可以迁移到CoIR。
  • CoVR模型提高了CIRR和FashionIQ基准测试的性能。
➡️

继续阅读